报告时间:2025年10月16日(星期四)9:00
报告地点:翡翠湖校区科教楼B501报告厅
报 告 人:董胤蓬 助理教授
工作单位:清华大学人工智能学院
举办单位:计算机与信息学院
报告简介:
随着大语言模型的能力不断增强,其在复杂推理与决策场景中的安全对齐问题愈发突出。如何在不削弱模型性能的前提下,实现深层次的推理安全与价值观对齐,已成为当前人工智能发展的关键挑战。本报告将围绕“基于推理增强的大模型安全对齐”展开,探讨从推理层面提升模型自我反思与安全约束能力的新思路。将介绍近期在强化模型安全推理、平衡安全与效能、以及多模态场景下安全对齐的研究进展,并结合实际应用案例展示推理增强在提升模型可信性和稳健性方面的潜力。通过这些探索,我们期望推动从结果导向的安全约束,迈向以推理过程为核心的全面安全对齐范式。
报告人简介:
董胤蓬,清华大学人工智能学院助理教授。在 TPAMI、IJCV、CVPR、NeurIPS 等期刊和会议上发表论文60余篇,谷歌学术引用12000余次,担任 ICLR、ICML、NeurIPS 领域主席。曾获得CCF优秀博士学位论文、清华大学优秀博士后、微软学者奖学金、百度奖学金等,连续4年入选全球前2%顶尖科学家榜单。