网站导航

王翔: 大模型可控安全初探

发布时间:2025-10-13
点击:
来源:计算机与信息学院

报告时间2025年10月16日(星期四)14:00

报告地点翡翠湖校区科教楼B501报告厅

报 告 人王翔 特任教授

工作单位中国科学技术大学

举办单位计算机与信息学院

报告简介

随着大模型的规模与能力持续扩展,其潜在的安全风险与不可控性已成为亟待解决的重大挑战。传统的安全对齐方法往往局限于单一阶段,难以实现对模型行为的全面、精细化控制。本报告初步尝试从训练、对齐到部署的整个生命周期,实现对风险行为的系统性干预

在训练阶段,引入 AlphaSteer,通过安全优先的激活引导机制,在模型内部表征层面进行早期安全校正;在对齐阶段,设计 AlphaAlign,利用安全强化的激励机制精细化模型的价值观,确保其行为模式与安全准则深度对齐;在部署阶段,开发 AlphaEdit,通过风险触发的模型编辑技术,对已部署模型的特定风险行为进行实时、原子化的修正。

报告人简介

王翔,中国科学技术大学特任教授、博士生导师,国家青年人才。研究兴趣涵盖信息推荐与挖掘、大模型、可信人工智能等。在相关领域的国际顶会(如 SIGIR、WWW、NeurIPS、ICLR)和顶刊(如 IEEE TPAMI、ACM TOIS)上发表论文70余篇,谷歌学术引用3万余次,H因子60,入选Elsevier中国高被引学者

其10余篇论文入选国际会议最具影响力论文列表和最佳论文候选。2025年获ICLR杰出论文奖,2023、2025年两度获国际基础科学大会前沿科学奖,2024年获ACM SIGIR青年学者奖及吴文俊人工智能自然科学一等奖,同年入选《麻省理工科技评论》MIT TR35榜单与AI100青年先锋。

上一篇: 周辉:全球人工智能法律治理

下一篇: 黄爽: 星火大模型应用落地的安全挑战与实践

本月热点