我校在多模态图像融合方向取得新进展

发布时间：2026-04-16

点击：

来源：仪器科学与光电工程学院

近日，我校仪器科学与光电工程学院刘羽教授团队在多模态图像融合研究方向上取得新进展。两项研究成果分别以“Customized Fusion: A Closed-Loop Dynamic Network for Adaptive Multi-Task-Aware Infrared-Visible Image Fusion”和“Degradation-Robust Fusion: An Efficient Degradation-Aware Diffusion Framework for Multimodal Image Fusion in Arbitrary Degradation Scenarios”为题，被计算机视觉和模式识别领域国际顶级会议IEEE/CVF Conference on Computer Vision and Pattern Recognition（CVPR 2026）录用，分别入选会议Oral（口头报告）和Poster（海报展示）。

多模态图像融合技术能够有效综合同一场景下多幅图像包含的互补信息，生成能够更加全面描述场景的融合图像，进而帮助人或机器感知和决策，被广泛应用于医学、安防、遥感等领域。然而，当前该方向研究仍面临两大挑战：一是单一融合模型难以同时适应目标检测、语义分割等多个不同的下游任务；二是真实成像条件中的噪声、模糊、分辨率不足等复杂退化因素会严重干扰融合质量。针对上述问题，团队分别从“下游任务导向融合”与“复杂场景鲁棒融合”两个角度开展了研究工作。

针对单一融合网络难以同时适应多个下游任务的问题，团队提出了一种基于闭环动态优化机制的多任务感知图像融合方法（如图1所示），能够让融合网络在不重新训练的情况下自适应地响应不同下游任务的语义需求，实现对多样化下游任务的动态感知。具体而言，设计了一种闭环动态网络，在融合网络（VFN）、需求驱动的语义补偿（RSC）模块以及多个下游任务网络（DTN）之间构建了一条语义传输链。通过这条语义传输链，RSC模块能够接收来自不同下游任务网络反馈的语义特征，并据此对融合网络动态施加任务特定的语义补偿，从而提升融合网络的多任务适应能力。为实现准确的语义补偿，闭环优化机制中引入了奖励惩罚策略，通过比较语义补偿前后的下游任务性能，对RSC模块进行适时地奖励或惩罚，使其逐渐习得对多样化任务语义需求的自适应响应能力。

合肥工业大学为该论文第一完成单位，仪器科学与光电工程学院博士研究生杨增轶为论文第一作者，刘羽教授和昆明理工大学李华锋教授为论文共同通讯作者。

图1 基于闭环动态优化机制的多任务感知图像融合方法示意图

针对噪声、模糊、低分辨率等各类退化场景下的多模态图像融合问题，团队提出了一种基于DDIM的复原和融合联合建模框架（如图2所示），通过联合观测校正机制对扩散模型的中间输出施加复原和融合双重约束，提升退化条件下的融合质量。该方法从统一退化模型出发，将不同模态图像的退化过程与融合目标共同纳入同一联合建模方程，在扩散采样过程中交替执行“复原及融合结果预测—联合约束校正—迭代更新”，使生成结果既满足退化观测的一致性要求，又能够自适应整合不同模态的互补信息。与此同时，该方法通过直接回归融合图像替代传统噪声预测方式，从而能够更灵活地适应不同融合任务，并结合DDIM加速采样策略有效减少扩散步数，在保证结构信息、纹理细节和显著目标保留能力的同时，进一步提升了复杂退化场景下多模态图像融合的效率与鲁棒性。

合肥工业大学为该论文第一完成单位，仪器科学与光电工程学院博士研究生石雨为论文第一作者，刘羽教授为论文通讯作者。

图2 基于扩散模型的退化鲁棒图像融合方法示意图

上述研究工作得到了国家自然科学基金（62576132、U23A20294）和教育部基础学科和交叉学科突破计划（JYB2025XDXM109）等项目的资助。

论文链接：

https://arxiv.org/abs/2604.08924

https://arxiv.org/abs/2604.08922

（袁帅/文袁帅/图李军鹏/审核）

责任编辑：刘红平

下一篇：我校在金属卤化物钙钛矿太阳能电池领域取得新进展

本月热点