董胤蓬: 基于推理增强的大模型安全对齐

发布时间：2025-10-13

点击：

来源：计算机与信息学院

报告时间：2025年10月16日（星期四）9:00

报告地点：翡翠湖校区科教楼B501报告厅

报告人：董胤蓬助理教授

工作单位：清华大学人工智能学院

举办单位：计算机与信息学院

报告简介：

随着大语言模型的能力不断增强，其在复杂推理与决策场景中的安全对齐问题愈发突出。如何在不削弱模型性能的前提下，实现深层次的推理安全与价值观对齐，已成为当前人工智能发展的关键挑战。本报告将围绕“基于推理增强的大模型安全对齐”展开，探讨从推理层面提升模型自我反思与安全约束能力的新思路。将介绍近期在强化模型安全推理、平衡安全与效能、以及多模态场景下安全对齐的研究进展，并结合实际应用案例展示推理增强在提升模型可信性和稳健性方面的潜力。通过这些探索，我们期望推动从结果导向的安全约束，迈向以推理过程为核心的全面安全对齐范式。

报告人简介：

董胤蓬，清华大学人工智能学院助理教授。在 TPAMI、IJCV、CVPR、NeurIPS 等期刊和会议上发表论文60余篇，谷歌学术引用12000余次，担任 ICLR、ICML、NeurIPS 领域主席。曾获得CCF优秀博士学位论文、清华大学优秀博士后、微软学者奖学金、百度奖学金等，连续4年入选全球前2%顶尖科学家榜单。

上一篇：周亚虹: 二元经济转型是否让中国劳动力市场户籍歧视消失？基于样本选择的高维因子模型

下一篇：刘丙强: 单细胞与空间组学数据分析相关算法

本月热点