🚀 快速了解部分
基础信息(英文):
- 题目: InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation
- 时间年月: 2026年1月
- 机构名: Shanghai Artificial Intelligence Laboratory (上海人工智能实验室)
- 3个英文关键词: Vision-Language-Action (VLA), World Models, Robotic Manipulation
1句话通俗总结本文干了什么事情
本文提出了一种名为 InternVLA-A1 的机器人模型,它把“看懂世界”、“想象未来画面”和“执行动作”融合在一个系统里,让机器人不仅能听懂指令,还能预判动作带来的物理变化,从而在动态环境中(比如传送带上)更聪明地完成任务。
研究痛点:现有研究不足 / 要解决的具体问题
- 语义与物理的割裂:现有的 VLA 模型(基于大语言模型)擅长语义理解,但无法推断物理世界动态(如惯性、接触),导致在动态场景(如传送带)中表现不佳。
- 世界模型的局限:基于视频预测的世界模型(World Models)虽然能预测动态,但缺乏语义理解,且对预测误差很敏感(容易“脑补”出错误的画面)。
- 数据获取困难:纯靠真实机器人收集数据成本太高、长尾场景覆盖不足;纯靠模拟数据又存在“仿真到现实(sim-to-real)”的差距。
核心方法:关键技术、模型或研究设计(简要)
- 统一架构:采用MoT(Mixture-of-Transformers)架构,包含三个专家模块:理解专家(处理视觉语言)、生成专家(预测未来画面/物理动态)、动作专家(输出控制指令)。
- 混合数据策略:构建“数据金字塔”,结合大规模开源真实数据(AgiBot-World)和高保真合成数据(InternData-A1),兼顾物理真实性和场景多样性。
🔍 深入了解部分
相比前人创新在哪里
- 架构创新:不同于以往将“理解”和“预测”割裂的做法,InternVLA-A1 在一个统一的模型中通过掩码自注意力机制,让三个专家模块(理解、生成、动作)顺序协作,实现了语义推理与物理预测的深度融合。
- 效率与效果平衡:解决了传统视频生成模型推理速度慢的问题,通过优化的生成专家实现了实时(约13Hz)的视觉预演和动作生成。
解决方法/算法的通俗解释
你可以把这个模型想象成一个“会预演的机器人”。
- 看和听(理解专家):先看一眼当前的环境,听懂你的指令。
- 脑内小剧场(生成专家):在动手前,它先在脑子里快速“播放”一下接下来几秒画面会变成什么样(比如手伸过去物体怎么移动)。
- 动手(动作专家):结合刚才的“脑内预演”,计算出最精确的电机控制指令去执行动作。如果预演发现会撞到东西,它就会调整动作。
解决方法的具体做法
- 模型结构:
- 理解专家:基于 InternVL3 或 Qwen3-VL,处理图像和文本。
- 生成专家:使用 VAE(变分自编码器)将图像压缩为潜空间特征,预测未来的潜变量。
- 动作专家:使用Flow Matching(流匹配)算法,将噪声转化为具体的动作序列。
- 训练流程:
- 预训练:在混合的合成与真实数据上进行大规模预训练。
- 后训练:在特定任务的小规模真实数据上进行微调。
基于前人的哪些方法
- 基础模型:基于 InternVL3 和 Qwen3-VL 的架构进行扩展。
- 生成技术:参考了 Janus Pro 的解耦视觉编码策略,以及 Cosmos CI8×8 VAE 的图像 tokenizer。
- 动作学习:采用了 Flow Matching(流匹配)框架来处理动作分布。
实验设置、数据、评估方式
- 数据集:
- 预训练:InternData-A1(合成数据,63万条轨迹)+ AgiBot-World(真实数据,100万条轨迹)。
- 微调/测试:12个真实世界任务 + RoboTwin 2.0 仿真基准。
- 硬件:Genie-1, ARX Lift-2, ARX AC One 三种双手机器人。
- 评估方式:在10个通用任务(如叠衣服、扫地)和2个动态专项任务(快递分拣、动态抓取食材)中进行30次重复测试,计算平均成功率。
提到的同类工作
- π₀ (Pi-0):由 Google 等机构提出,利用互联网规模知识的 VLA 模型。
- GR00T N1.5:NVIDIA 提出的通用人形机器人基础模型。
- RT-1 / RT-2:Google 的机器人 Transformer 模型。
- x-vla:另一项领先的 VLA 架构研究。
和本文相关性最高的3个文献
根据文中引用频率和对比实验,相关性最高的三个文献(或工作)是:
- π₀ (Pi-0)(Black et al., 2024):本文最主要的对比基准之一,文中多次提到 InternVLA-A1 在各项任务中超越了 π₀ 的表现。
- GR00T N1 / N1.5(Bjorck et al., 2025):本文最主要的对比基准之一,特别是在人形/通用机器人领域的对标模型。
- InternData-A1(Tian et al., 2025b):本文作者团队之前的工作,是本文模型预训练数据的核心来源,对本文的成功至关重要。