王翔: 大模型可控安全初探

发布时间：2025-10-13

点击：

来源：计算机与信息学院

报告时间：2025年10月16日（星期四）14:00

报告地点：翡翠湖校区科教楼B501报告厅

报告人：王翔特任教授

工作单位：中国科学技术大学

举办单位：计算机与信息学院

报告简介：

随着大模型的规模与能力持续扩展，其潜在的安全风险与不可控性已成为亟待解决的重大挑战。传统的安全对齐方法往往局限于单一阶段，难以实现对模型行为的全面、精细化控制。本报告初步尝试从训练、对齐到部署的整个生命周期，实现对风险行为的系统性干预。

在训练阶段，引入 AlphaSteer，通过安全优先的激活引导机制，在模型内部表征层面进行早期安全校正；在对齐阶段，设计 AlphaAlign，利用安全强化的激励机制精细化模型的价值观，确保其行为模式与安全准则深度对齐；在部署阶段，开发 AlphaEdit，通过风险触发的模型编辑技术，对已部署模型的特定风险行为进行实时、原子化的修正。

报告人简介：

王翔，中国科学技术大学特任教授、博士生导师，国家青年人才。研究兴趣涵盖信息推荐与挖掘、大模型、可信人工智能等。在相关领域的国际顶会（如 SIGIR、WWW、NeurIPS、ICLR）和顶刊（如 IEEE TPAMI、ACM TOIS）上发表论文70余篇，谷歌学术引用3万余次，H因子60，入选Elsevier中国高被引学者。

其10余篇论文入选国际会议最具影响力论文列表和最佳论文候选。2025年获ICLR杰出论文奖，2023、2025年两度获国际基础科学大会前沿科学奖，2024年获ACM SIGIR青年学者奖及吴文俊人工智能自然科学一等奖，同年入选《麻省理工科技评论》MIT TR35榜单与AI100青年先锋。

上一篇：周辉：全球人工智能法律治理

下一篇：黄爽: 星火大模型应用落地的安全挑战与实践

本月热点