点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
个人信息
陈博远,北京大学元培学院本科生
内容简介
随着多模态大语言模型(MLLMs)在各类挑战性任务中持续取得进展,一个关键问题应运而生:哪些核心能力仍然缺失?人类学习的一个关键特征在于与环境的持续交互 —— 这种交互不仅局限于语言,还涉及多模态的理解与生成。为了更接近人类水平的智能,模型同样需要支持多轮、多模态交互。具体而言,模型需能够理解交错的多模态上下文,并在持续的交互过程中做出连贯回应。在本研究中,作者通过 InterMT 展开了初步探索 —— 这是首个基于真实人类反馈的多轮多模态交互偏好数据集。鉴于当前多模态大语言模型缺乏此类复杂交互能力,本研究特别强调人类监督的重要性,引入专家标注以指导整个过程。InterMT 从全局和局部两个层面将人类偏好细分为九个维度,包含 15.6 k个提示词、52.6 k个多轮对话样本以及 32.4 k个人类标注偏好对。为弥补现有模型在多模态理解与生成一体化能力上的不足,本文提出了一种智能体工作流,利用工具增强型多模态大语言模型构建多轮问答样本。为进一步推进相关研究目标,本文构建了 InterMT-Bench 基准,用于评估多模态大语言模型在辅助裁判完成多轮多模态任务中的表现。本文通过价值判断建模等应用场景验证了 InterMT 的实用价值,并进一步揭示了裁判模型的多轮扩展律。
论文地址:https://arxiv.org/abs/2505.23950
代码链接:https://pku-intermt.github.io/
论文解读
本文介绍在NeurIPS 2025 D&B Track发表的Spotlight论文(Top 2.6%),研究围绕多轮图文交错场景下的理解与生成协同任务,核心探索如何通过人类反馈实现偏好对齐。
近年来,RLHF、RLVR等技术推动通用人工智能及AI助手能力显著提升,模型在数学推理、代码生成、 AI Agent操纵等任务中表现突出,GPT-4o等模型更展现出多模态理解与生成潜力。但技术发展背后,多模态大语言模型的下一步方向及通用人工智能的关键能力缺口,仍是亟待解答的核心问题。
人类感知世界的核心方式是动态多轮交互,这种交互涵盖文字、图像、音频、视频等多模态信息,不同模态信息相互交错融合,且贯穿于人类的输入与输出全过程。多轮交互更是目标确认和复杂任务完成的关键,例如图片修改、图文故事生成、AI Agent工具调用等场景,均需通过多轮交互实现目标。
随着技术从传统语言模型向通用AI Agent、多模态AI泛化,多模态对齐面临“最后一公里”难题:一是通用AI助手需融入真实物理世界,通过多轮对话完成复杂推理;二是模型需实现模态融合与穿透,兼顾多模态理解与生成以支撑高质量交互。多轮交互与多模态理解生成的结合,成为迈向通用AI的关键路径。
1
多模态对齐的三大核心挑战
(一)模态融合挑战
不同模态信息可能存在矛盾、冲突或互补,如同柏拉图洞穴寓言中对同一事物的不同角度投影,需整合多模态信息才能完整建模真实世界;同时,当前模型虽已具备高精度多模态理解能力,但仅靠理解难以支撑通用AI助手构建,需融合多模态理解与生成能力,实现与人类的真实交互。
(二)长程对齐挑战
真实物理世界的交互是多轮次、跨模态、上下文动态演化的过程,用户偏好会随任务进展动态变化(如图像编辑中新增光影需求),如何建模动态演变偏好是亟待解决的核心问题;此外,长程任务中可能出现信息重构、目标变化等情况,模型需具备因果理解与动态规划能力,维持对整体任务目标的理解一致性。
(三)人在回路挑战
随着任务推进、模态切换与环境演化,用户意图与偏好会持续显现或调整;同时,偏好不仅随时间演化,还可能通过不同模态呈现,如何从异构模态中抽取、统一并跟踪“跨模态偏好轨迹”同样是多模态对齐场景下的关键挑战之一。
2
InterMT方法核心设计
针对上述挑战,研究提出InterMT方法,核心洞察为人类价值在长程问题中具有偏好演化与模态异质性的交叉复杂性,需通过局部和整体双层次捕获动态偏好,具体设计包括:
(一)首个多轮多模态人类偏好数据集
覆盖15+视觉语言任务,模拟真实物理世界多模态多轮任务场景,填补当前社区缺乏兼顾多模态理解与生成的偏好数据空白。
(二)多模态Agent工作流
利用GPT-4o、Gemini-2.5-Pro等多模态模型,整合图像编辑、召回、修改等工具,构建“理解-生成”一体化多模态Agent,实现真实场景下高质量人类偏好数据采集。
(三)双层次细粒度偏好机制
从局部和整体两个层次、九个维度捕捉人类偏好:整体维度关注任务完成度、图文连贯性等核心要求;局部维度聚焦单轮对话的图像文本质量与连贯性;同时引入“推理+批评+指正”三维度语言反馈,精细化反映人类偏好与意图。
(四)多轮扩展律
有限轮数训练的奖励模型可泛化到更多轮次偏好预测,呈现“训练轮数增加带动性能泛化提升”与“泛化轮数增加呈现类对数递减”的趋势,有效解决真实场景数据稀缺问题。
此外,为模拟真实多轮对话任务,研究基于认知心理学将人类意图拆解为五大类别,构建15+视觉语言任务的多轮对话场景;同时构建全模态Agent,采用苏格拉底提问法模拟人类与AI助手的真实交互过程。
3
关键发现与评估结果
(一)核心特性
1. 整体与局部双向泛化:基于局部偏好训练的奖励模型可预测整体偏好,基于整体偏好训练的模型能捕获局部意图,二者形成互补;
2. 多轮扩展律验证:有限轮训练的奖励模型泛化准确率可从0.4-0.5提升至0.7-0.8,显著高于多模态场景下50%-60%的常规水平,证明多模态长程交错式人类偏好对价值建模和对齐的重要性和增益。
(二)InterMT-Bench评估发现
研究构建InterMT-Bench基准,围绕打分评估、偏好对比、关键步骤识别三大任务,对六个先进多模态模型进行评估,得出以下结论:
1. 长程对齐的乐观迹象:模型在关键步骤识别任务中表现接近人类水平(4.38/5),为长程价值对齐提供潜在路径;
2. 模型存在隐藏偏见:模型倾向于对特定位置回复及整段对话赋予高分,存在位置偏差与高分偏差;
3. 分而治之策略更优:表现出色的模型会逐轮分析对话贡献再给出整体判断,低分模型则倾向于模糊回答;
4. 推理能力并非万能:强弱推理模型在评估任务中表现均不理想,模型推理依赖预定义准则而非主动识别缺陷,导致与人类评价存在偏差;
5. 模型缺乏深层理解:部分模型虽能给出与人类一致的评分,但皮尔逊相关系数较低,表明模型可能是“猜测”评分,未真正理解人类偏好的细微差别。
4
研究小结
本研究的核心动机是构建人在回路、融合多模态理解与生成的多轮对齐机制,提出的双层次对齐方法从九个维度建模长程动态价值,涵盖局部-全局偏好设置、认知心理学驱动的问题设计、多工具Agent工作流、偏好标注体系及数据集基准五大核心内容。
研究发现的判别模型多轮扩展律,及方法对视频、音频等多模态场景的无缝扩展性,为多模态内容建模提供了有力支持。同时,评估结果也揭示了当前多轮多模态模型的显著缺陷,未来仍需通过持续的人类多轮偏好对齐,释放模型关键步骤识别与多轮扩展潜力。
总体而言,构建多模态通用人工智能助手仍任重道远,本研究期望为多模态对齐领域提供里程碑式参考,为社区发展提供支持。
本期文章由支昕整理
往期精彩文章推荐
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾800场活动,超1000万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言
点击阅读原文查看作者直播回放!