报告时间:2025年11月9日(星期日)8:30-17:00
报告地点:翡翠科教楼B座501室
举办单位:计算机与信息学院(人工智能学院)
学术报告信息(一)
报告题目:Vision-based Autonomous Driving by Imitation Learning
报告时间:2025年11月9日(星期日)8:40-9:10
报 告 人:ANTONIO MANUEL LOPEZ PEÑA 教授
工作单位:西班牙巴塞罗那自治大学
报告简介:
Developing autonomous vehicles requires training and testing AI drivers with supervised data gathered from a wide variety of driving scenarios. We could say that data is the driver in autonomous driving. This talk highlights the work carried out at CVC/UAB to reduce the need for manual data labeling, focusing on the use of sensorimotor models trained through imitation learning. Antonio’s team brings nearly seven years of experience to this field, ranging from simulation with CARLA to deploying real-world vehicles in the Catalan Pyrenees and on the UAB campus. Their research also includes comparative studies of human attention and AI driver attention. In this presentation, we will review the team's research journey on this topic from its beginnings to the present, discussing current achievements and open questions.
报告人简介:
Antonio has a long trajectory carrying research at the intersection of computer vision, simulation, machine learning, driver assistance, and autonomous driving. Antonio has been deeply involved in the creation of the SYNTHIA and UrbanSyn datasets and the CARLA open-source simulator, all created for democratizing autonomous driving research. Antonio’s team was pioneer on synth-to-real domain adaptation in the late 2010’s. Antonio’s team and colleagues also put the focus on vision-based end-to-end autonomous driving powered by deep imitation learning. Antonio is actively working hand-on-hand with industry partners to bring state-of-the-art techniques to the field of autonomous driving.
学术报告信息(二)
报告题目:安全可信自主驾驶行为策略学习
报告时间:2025年11月9日(星期日)9:10-9:40
报 告 人:薛建儒 教授
工作单位:西安交通大学
报告简介:
当前,开放、动态环境中的自动驾驶汽车正面临着在不确定条件下安全可信运行的严峻挑战。为应对挑战,强化学习与控制理论领域正不断涌现出自动驾驶安全学习的研究工作。一方面,无人车释放出全球性、多样化的大规模数据,有力推动了数据驱动的自动驾驶行为策略学习技术的发展。另一方面,在真实物理世界部署应用无人驾驶必须确保其行为的必安全、可信。本报告将重点讨论不确定性条件下自动驾驶安全可信行为的策略学习方法,并展望未来值得关注的一些基础性问题。
报告人简介:
薛建儒,博士,西安交通大学教授,中国自动化学会会士和中国图形图象学会会士,主要研究领域包括模式识别与机器学习、无人驾驶与混合增强智能等。研究成果获国家自然科学二等奖和国家技术发明二等奖各1项,教育部和陕西省自然科学一等奖各1项。主要学术兼职有CAA混合智能专业委员会主任委员、CAAI人机融合智能专委会副主任委员、《Frontiers of Information Technology & Electronic Engineering》、《自动化学报》等多个学术期刊编委。
学术报告信息(三)
报告题目:视觉感知与自动驾驶
报告时间:2025年11月9日(星期日)9:40-10:10
报 告 人:鲁继文 教授
工作单位:清华大学
报告简介:
自动驾驶动驾驶是人工智能与机器人领域的研究热点,在工业制造、交通运输、现代服务等领域有着重要的应用前景。报告将介绍自动驾驶视觉感知近年来的主要研究进展,包括视觉场景生成、三维占据预测、端到端自动驾驶、自动驾驶大模型等代表性方法与技术,同时深入分析其优缺点与应用潜能,最后对自动驾驶视觉感知的未来发展趋势进行展望。
报告人简介:
鲁继文,清华大学长聘教授、自动化系副主任、全国重点实验室副主任、IEEE/IAPR Fellow。主要研究方向包括机器视觉与模式识别、人工智能安全与治理、具身智能与机器人,发表IEEE汇刊和CVPR/ICCV/ECCV会议论文300余篇,获授权国家发明专利60余项,主持国家重点研发计划项目1项、国家自然科学基金重点项目3项、北京市重点项目2项,获国家级教学成果奖二等奖1项,省部级科技奖一等奖4项。担任中国仿真学会理事、视觉计算与仿真专委会主任,中国图象图形学学会视觉认知与计算专委会副主任,中国自动化学会专家咨询工作委员会副主任,国际期刊Pattern Recognition Letters主编,培养6名博士生获北京市和全国一级学会优秀博士学位论文。
学术报告信息(四)
报告题目:无人驾驶具身交互智能
报告时间:2025年11月9日(星期日)10:30-11:00
报 告 人:马楠 教授
工作单位:北京工业大学
报告简介:
无人驾驶离不开车对车、车对路、车对人之间的智能交互,应具有良好的具身智能。然而实际场景中,人们往往对无人驾驶行为不很清楚、对它做出的决策不够理解。针对复杂、不确定环境下无人驾驶交互认知缺失问题,近年来团队先后提出一系列人车路协同的无人车智能交互方法,开展多通道跨模态感知和行为理解研究,并设计基于低秩增量大语言模型的开放式座舱用户行为字典动态构建、多视数据时空高阶语义关联特征的人机协同动作识别、感知-认知-行为闭环反馈的强化学习范式实现了无人车在不断增长的碎片化场景中的自学习等方法,建立机器与人的交互认知。“自主驾驶+交互认知”,使无人车成为可交互的轮式机器人,更好地服务于人类社会。
报告人简介:
马楠,人工智能研究领域专家,北京工业大学信息科学技术学院教授、副院长、博士生导师,智能感知与自主控制教育部工程研究中心副主任,兼任中国人工智能学会副秘书长和教育工作委员会秘书长,CCF杰出会员,是北京市智能制造与机器人技术创新专项负责人和国家级一流本科课程负责人,北京市先进工作者。研究方向为交互认知、具身智能、无人驾驶和移动机器人。以第一完成人先后获得中国图象图形学学会科技进步一等奖、中国电子学会科学技术奖【技术发明类】二等奖;主持多项国家、省部级项目,承担北汽集团、东风悦享、云迹科技等企业委托无人车、服务机器人智能交互项目10余项。带领团队多次在国际、国内人工智能、无人驾驶重要比赛中获得冠军,团队成果“无人驾驶云智能交互系统”获得第二届中国“AI+”创新创业大赛总决赛特等奖(2000余参赛队)。已在IEEE TRO、TIP、TNNLS、TMM、PR、中国科学.信息科学、ACM MM、ICRA等国内外学术期刊、会议上发表论文90余篇。建设了国家级一流本科课程《智能交互技术》,在中国大学MOOC开设13轮次;主编专著和教材5部,其中《智能交互技术与应用》入选“十三五”国家重点出版物规划教材;先后获得第六届全国教育科学研究优秀成果奖二等奖和北京市教学成果一等奖等。
学术报告信息(五)
报告题目:基于认知驱动的自动驾驶3.0
报告时间:2025年11月9日(星期日)11:00-11:30
报 告 人:陈龙 博士
工作单位:小米汽车
报告简介:
在大模型时代,传统的基于规则算法的自动驾驶1.0和以数据驱动为核心的端到端自动驾驶2.0正面临泛化能力瓶颈。它们的感知和决策能力难以处理复杂的长尾场景。如今,以大模型为基础的认知驱动3.0范式应运而生,它赋予车辆强大的世界认知理解和推理能力,使其能像人类一样在开放环境中动态决策,从而迈向更高级别的安全与智能。
报告人简介:
陈龙,本科毕业于大连理工大学,在英国伦敦大学学院(UCL)和英国伯恩茅斯大学获得硕士和博士学位。曾任职于美国自动驾驶公司,和英国自动驾驶独角兽公司 Wayve。陈龙博士在 CVPR、ECCV、NeurIPS、ICRA、CoRL 等国际顶级会议发表多篇论文,获CVPR 2024自动驾驶挑战赛第一名,并多次受邀为国际研讨会主旨演讲嘉宾。2025年被评为《麻省理工科技评论》亚太区“35岁以下科技创新35人”。
学术报告信息(六)
报告题目:Physical AI中表征学习的前沿进展
报告时间:2025年11月9日(星期日)14:00-14:30
报 告 人:王乃岩 正高级研究员
工作单位:小米汽车
报告简介:
通用视觉表征模型在近几年内迅猛发展,以DINO系列为例,极大拓宽了通用视觉模型的性能和泛化性,但其在自动驾驶与机器人领域仍有诸多难题有待突破。我们认为其核心原因在于现有的多模态特征提取器。现阶段常用的特征提取器多基于单帧海量互联网数据训练,强于语义理解。然而物理世界的AI需要的特征不仅仅止步于此,还需要对于几何、运动、时序的理解。现有的大规模视觉和3D预训练模型方法很难满足于这样的需求。在本场演讲中,我会介绍我们最近的两个相关工作,希望能够启迪后续的研究工作。
报告人简介:
王乃岩于2011年本科毕业于浙江大学,2015年博士毕业于香港科技大学,2014 Google PhD Fellow计划入选者(中国仅四人入选)。他现任职于小米汽车,在此之前任图森中国CTO,领导了L4自动驾驶卡车的前沿研发。他有超过8年的自动驾驶业界研发经验,并在计算机视觉与机器学习顶级会议与期刊上发表论文70余篇,发表论文引用次数已超过 23000余次。
学术报告信息(七)
报告题目:NextG Communications for Vehicle Networks
报告时间:2025年11月9日(星期日)14:30-15:00
报 告 人:石怡 副教授
工作单位:美国弗吉尼亚理工学院
报告简介:
Vehicle networks enable a wide range of emerging and important applications, including safe driving, traffic efficiency, autonomous driving, vehicle diagnostics, software updates, Internet access, and in-vehicle entertainment. However, the frequency band currently allocated for vehicle networks provides only 20 MHz of bandwidth, which is insufficient to meet growing communication demands. There is a pressing need to identify additional spectrum resources for vehicular communications.
With the expansion of 5G and beyond technologies across multiple frequency bands through spectrum sharing, new opportunities have emerged to support the increasing data requirements of vehicle networks. This talk reviews the opportunities and unique challenges associated with the CBRS band and the 4.9 GHz band, and presents spectrum sharing solutions that can enable large-area, reliable communication services for vehicle networks.
报告人简介:
Dr. Yi Shi is a Research Associate Professor at the Commonwealth Cyber Initiative, Virginia Tech. He is an IEEE Fellow. Before joining Virginia Tech, Dr. Shi was a Senior Lead Scientist at Intelligent Automation, a BlueHalo company. He holds three patents on wireless communications and social networks.
Dr. Shi's current research focuses on machine learning, algorithm design, and optimization for 5G/NextG networks and satellite networks. His work has been published in leading IEEE and ACM journals and presented at top-tier international conferences. He received many paper awards, including the Test of Time Paper Award at IEEE INFOCOM 2023 and the Best Paper Award at IEEE INFOCOM 2008.
Dr. Shi currently serves as a distinguished lecturer for IEEE Vehicular Technology Society, an Editor for IEEE Communications Surveys and Tutorials, and an Editor for IEEE Transactions on Cognitive Communications and Networking. He has also served as a Co-Chair for various IEEE and ACM Workshops, Conference Tracks, and Symposia, as well as a TPC member for many top international conferences.
学术报告信息(八)
报告题目:端到端自动驾驶大模型关键技术
报告时间:2025年11月9日(星期日)15:00-15:30
报 告 人:王兴刚 教授
工作单位:华中科技大学
报告简介:
本次报告将介绍我们在构建端到端自动驾驶大模型过程中突破的一些关键技术:(1)在基础架构方面,我们设计了多模态大模型与端到端小模型桥接的快慢双系统架构Senna,训练了用于驾驶任务高层次决策的视觉语言模型Senna-VLM;首次将GRPO强化学习技术引入到驾驶高层决策模型的训练当中,打造了AlphaDrive模型。(2)在驾驶的轨迹解码方面,提出了DiffusionDrive方法,首次将扩散模型技术成功用于端到端自动驾驶,设计了支持多模驾驶轨迹输出的截断扩散模型。(3)在模型的后训练方面,我们实现了业内首个端到端驾驶模型的强化学习系统RAD,通过采用3DGS来构造真实场景的数字孪生,为端到端驾驶模型提供可靠的强化学习反馈,大幅度提升模型的泛化性能。(4)在自动驾驶世界模型方向,我们提出了可见光和激光雷达联合建模的多模态扩散模型Genesis。相关的技术均在公司的实际业务系统中取得了很好的应用效果。
报告人简介:
王兴刚,华中科技大学电信学院教授博导。主要从事视觉表征学习、多模态基础模型、自动驾驶等领域研究,在领域内顶级期刊会议上发表论文60余篇,谷歌学术引用4.5万次,7篇论文引用超过1000次。获湖北青年五四奖章、CSIG青年科学家奖、 CAAI吴文俊优秀青年奖、CVM期刊年度最佳论文奖、MIR期刊年度最高引用论文奖、微软学者奖、互联网+全国金奖等。现任Image and Vision Computing期刊共同主编、IEEE TPAMI编委、CVPR/ICCV/ AAAI/NeurIPS领域主席等。
学术报告信息(九)
报告题目:以视觉为中心的自驾场景高效预训练范式及鲁棒感知
报告时间:2025年11月9日(星期日)15:50-16:20
报 告 人:李镇 助理教授
工作单位:香港中文大学(深圳)
报告简介:
视觉中心的三维感知已成为自动驾驶场景理解的重要方向,但现有技术在高效特征建模、跨任务泛化以及复杂环境下的鲁棒性方面仍面临挑战。本报告围绕三项最新工作,系统探讨视觉为核心的高效预训练范式与鲁棒感知策略。首先,VisionPAD提出基于锚点式三维高斯渲染(3D Gaussian Splatting)的自监督预训练框架,结合体素速度估计与多帧光度一致性,在纯图像监督下高效学习几何与运动表征,显著提升3D检测、占据预测及地图分割性能。其次,SQS将高斯渲染式预训练引入稀疏查询感知模型(SPMs),设计适应性高斯查询及查询交互模块,实现任务查询与先验查询的高效融合,在占据预测和3D目标检测上超越现有稀疏感知方法。最后,针对真实驾驶环境中的天气、光照等分布偏移,DriveGEN利用训练自由的可控文本到图像扩散生成,结合自原型特征提取与原型引导扩散,提升数据增强的几何保真度,在多类OOD场景下大幅提高视觉中心3D检测的鲁棒性。这些工作形成了从高效预训练到稳健感知的完整技术链,为未来端到端自动驾驶的安全与性能提升提供了新的思路与工具。
报告人简介:
李镇博士,现任香港中文大学 (深圳)理工学院助理教授, 深圳市未来智联网络研究院助理院长,理工学院计算机信息工程理学硕士项目主任。李镇博士获得香港大学计算机科学博士学位 (2014-2018年),他还于2018年在芝加哥大学担任访问学者。李镇博士荣获2023年IROS最佳论文Finalist,6次获得公开竞赛/数据集冠军等。李镇博士还获得了来自于国家、省市级以及工业界的科研项目(如华为青年科学家奖励捐赠、腾讯犀牛鸟项目等)。他领导了港中深的Deep Bit Lab(https://mypage.cuhk.edu.cn/academics/lizhen/),其主要的研究方向是三维视觉,深度学习等基础理论算法研究,并致力于将人工智能算法推广应用于交叉学科,自动驾驶,具身智能,医学大数据分析等场景中,在该方向著名国际期刊和会议发表论文80余篇,包括顶级期刊Cell Systems, Nature Communications, T-PAMI, IJCV, TMI, TVCG, TNNLS等,以及顶级会议CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML,IROS, ACM MM, AAAI, IJCAI, MICCAI等。李镇博士担任IEEE Transactions on Mobile Computing、IROS副编、ICLR2024 AC以及众多顶刊顶会的审稿人,李镇博士还是广东院士联合会脑科学与类脑智能专委委员,VALSE、MICS、CSIG-MV、3DV专委会等学术组织的委员。
学术报告信息(十)
报告题目:面向自动驾驶的图像语义分割
报告时间:2025年11月9日(星期日)16:20-16:50
报 告 人:袁晓辉 教授
工作单位:美国北德克萨斯州大学
报告简介:
街景理解在自动驾驶、交通感知和城市规划等诸多应用中发挥着重要作用。为了实现场景及物体的理解,图像目标需要被分割并分类,即图像语义分割。在语义分割中,像素的邻域往往呈现出目标的典型上下文。要正确完成目标分割,通常不仅需要依赖目标自身的特征,还必须结合其上下文信息。在深度网络中,解码器是语义分割中的关键元素。现有方法在特征提取时依赖有限的感受域,忽视了周边上下文信息,这可能导致对复杂场景的理解错误。此外,在满足实际应用需求时,还必须在上下文信息和计算成本之间进行权衡。为了解决这些问题,我们提出了一种空间格状注意力解码器网络,该网络采用轻量级解码器结合空间格状注意力,在语义分割中实现高效计算。
报告人简介:
袁晓辉受聘为北德克萨斯大学终身教授,计算机视觉和智能系统实验室主任。他已经主持了20多项由美国科学基金等多个机构支持的科研项目。其研究结果已经发表在240余篇期刊及国际会议中。他于2008年获得Ralph E. Powe 教授奖,并多次获得美国空军访问教授奖。他在多个国际杂志中担任副主编、编委会成员和客座编委,并在多个国际会议中担任主席、组织成员和会场主席。是NASA、NSF、NIH和路易斯安那州教育委员会科研项目的项目评委。