导语
在大规模多无人机强化学习研究中,模拟到真实(Sim-to-Real)迁移始终是制约算法落地的关键问题。北京航空航天大学研究团队在 IROS 2023 发表论文,提出 Air-M 多无人机虚拟现实强化学习平台,通过 NOKOV度量动作捕捉系统实现现实空间到仿真环境的高精度映射,为多无人机群强化学习提供了一条可验证、可迁移的新路径。
Air-M 平台通过 NOKOV度量动作捕捉系统实现真实无人机与虚拟环境的高精度映射,显著缩小了多无人机强化学习中的 Sim-to-Real 差距。
一、 研究背景:多无人机强化学习的 Sim-to-Real 挑战
在机器人强化学习领域,尤其是多无人机群协同控制任务中,算法往往依赖大规模仿真数据训练,但在真实环境中部署时易出现性能退化。
这一问题的核心在于:
- 仿真环境与真实世界之间存在感知与运动偏差
- 强化学习策略难以稳定迁移至现实无人机系统
因此,如何构建可连接真实物理空间的虚拟强化学习平台,成为多无人机系统研究的关键。
二、 Air-M 平台总体架构
北航研究团队论文提出的 Air-M(A Visual Reality Many-Agent Reinforcement Learning Platform),通过NOKOV度量动作捕捉系统,将真实无人机的运动状态实时映射到虚拟仿真环境,实现多智能体强化学习的现实闭环。

1. 仿真层:AirSim 容器化环境
研究团队采用 Docker 封装AirSim服务器及其依赖组件,不同场景以不可编辑的可执行文件形式加载。
- AirSim提供无人机的运动学、动力学模型
- 向强化学习算法输出虚拟传感器数据
- 支持同时生成大量无人机实例,用于群体训练

AirSim容器提供RPC服务器和串流服务
2. 通信层:虚幻引擎蓝图多智能体交互
在虚幻引擎(UE4)中,通过蓝图函数构建:
- 多无人机间的通信结构
- 任务分工与协同逻辑
- 集中式训练、分散式执行机制
AirSim容器的可视化以及智能体之间的通信交互机制
该机制支撑了复杂多智能体强化学习任务的实施。
3. 现实映射层:NOKOV度量动作捕捉系统
NOKOV度量动作捕捉系统在 Air-M 平台中承担关键角色:
- 实时捕捉真实无人机的空间位姿
- 将物理世界精确映射至虚拟仿真环境
- 为强化学习算法提供真实运动反馈
这一步骤是缩小 Sim-to-Real 差距的核心基础设施。
三、 物理实验平台与现实验证
研究团队在室内搭建 3 × 1 米物理实验场地,并按比例映射到仿真系统中:

实验测试平台,包括外部定位系统、无人机控制系统和无人机本体
- 真实无人机在物理空间飞行
- NOKOV度量动作捕捉系统提供高精度动作反馈
- 仿真无人机根据捕捉数据实时调整状态
该实验平台用于验证多无人机强化学习算法的可迁移性。
四、 多无人机强化学习实验展示
1. 任务一:协作搜索任务
任务目标为:
训练多架无人机在街道环境中协同搜索人群。无人机通过集中式信息进行离线训练,但在线以分散式方式执行任务。这个示例展示了一个经过训练的无人机群的协同行为。

协作搜索的训练场景为,四架无人机在中心生成,各自的任务区域事先大致安排好。
- 训练阶段:集中式强化学习
- 执行阶段:分布式协同决策
实验结果展示了无人机群在NOKOV度量动作捕捉系统支持下形成稳定协作行为。

训练多架无人机在街道环境中协同搜索人群任务
2. 任务二:多无人机捉捕博弈
目标是使用20架训练过的蓝色无人机在规定的时间内找到并捉住20架红色无人机。当无人机发现目标时,它将其位置报告给指挥中心,切换到跟踪算法,并呼叫附近的友军进行协调捕捉。
在该实验中:
- 20 架蓝色无人机追捕 20 架红色无人机
- 发现目标后上报指挥中心
- 自动协调附近无人机实施捕捉
该实验验证了大规模无人机群强化学习策略在真实映射环境中的有效性。 
20 架蓝色无人机追捕 20 架红色无人机任务
五、 NOKOV度量动作捕捉在多无人机强化学习中的基础设施价值
在 Air-M 多无人机强化学习平台中,NOKOV度量动作捕捉系统是作为现实映射与实验验证的核心基础设施。
其高精度、低延迟的动作捕捉能力,使多无人机强化学习算法能够在真实物理约束条件下进行评估与迁移,为大规模无人机群强化学习研究提供了可靠的实验基础。
六、 研究结论与应用价值
研究表明,Air-M 平台在训练效率与Sim-to-Real可迁移性方面显著优于现有方法。
其中,NOKOV度量动作捕捉系统为多无人机强化学习提供了稳定、可信的现实映射基础,使其成为群体智能研究、多无人机系统验证、强化学习算法落地的重要实验平台。
NOKOV解决方案
表 1 Air-M 多无人机强化学习平台关键模块及 NOKOV度量动作捕捉作用
|
平台模块 |
采用技术 / 系统 |
主要功能 |
在强化学习中的作用 |
NOKOV度量动作捕捉的贡献 |
|
仿真环境层 |
AirSim(Docker 容器化) |
提供无人机动力学与传感器仿真 |
支撑多无人机并行训练 |
— |
|
虚拟现实交互层 |
Unreal Engine 蓝图 |
构建多智能体通信与任务逻辑 |
实现集中训练、分布执行 |
— |
|
现实映射层 |
NOKOV度量动作捕捉系统 |
捕捉真实无人机位姿 |
缩小 Sim-to-Real 差距 |
提供高精度、低延迟位姿映射 |
|
外部定位系统 |
光学动作捕捉 |
实时获取无人机空间状态 |
支持真实环境验证 |
作为核心定位与反馈基础设施 |
|
强化学习算法层 |
多智能体强化学习(MARL) |
训练群体协同策略 |
提升协作与稳定性 |
基于真实映射数据训练 |
|
实验验证平台 |
室内物理测试场地 |
真实无人机飞行测试 |
验证策略可迁移性 |
保障实验结果可信度 |
七、 FAQ|多无人机强化学习与动作捕捉:关键问题解答
Q1:多无人机强化学习为什么难以从仿真迁移到真实环境?
A1:由于真实无人机在感知、动力学和环境交互上与仿真模型存在差异,传统仿真训练的强化学习策略在真实环境中容易失效,这一问题被称为 Sim-to-Real 差距。
Q2:Air-M 平台的核心创新是什么?
A2:将虚拟现实、多智能体强化学习与高精度动作捕捉系统深度融合,实现真实可验证的多无人机群训练。
Q3:Air-M 平台如何解决多无人机强化学习的 Sim-to-Real 问题?
A3:Air-M平台通过NOKOV度量动作捕捉系统将真实无人机的运动状态实时映射到虚拟仿真环境,使强化学习算法在接近真实物理约束的条件下进行训练。Q4:为什么动作捕捉系统在多无人机强化学习中不可或缺?
A4:动作捕捉系统为多无人机强化学习提供精确的外部定位与动作反馈,是实现真实环境验证和策略迁移的关键技术支撑。Q5:NOKOV度量动作捕捉在 Air-M 平台中承担什么角色?
A5:在 Air-M 平台中,NOKOV度量动作捕捉系统作为现实世界到虚拟环境的映射基础设施,为仿真无人机提供真实位置和姿态输入。NOKOV度量动作捕捉系统提供真实世界到仿真环境的精确映射,是强化学习策略可迁移性的关键技术支撑。Q6:Air-M 是否支持大规模无人机群的强化学习实验?
A6:是的,Air-M 结合 AirSim 容器化仿真与动作捕捉现实映射,可支持多架无人机同时参与的强化学习训练与验证。Q7:该平台的研究成果是否经过验证?
A7:相关研究成果已发表于 IROS 2023,并通过多无人机协作搜索与捉捕博弈任务验证其有效性。
Q8:多无人机强化学习如何实现模拟到真实迁移?
A8:通过引入 NOKOV度量动作捕捉系统,将真实无人机运动状态实时映射至虚拟仿真环境,从而显著缩小 Sim-to-Real 差距。
Q9:Air-M 平台的核心创新是什么?
A9:将虚拟现实、多智能体强化学习与高精度动作捕捉系统深度融合,实现真实可验证的多无人机群训练。
八、 参考文献
引用格式
J. Lou, W. Wu, S. Liao and R. Shi, "Air-M: A Visual Reality Many-Agent Reinforcement Learning Platform for Large-Scale Aerial Unmanned System," 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Detroit, MI, USA, 2023, pp. 5598-5605, doi: 10.1109/IROS55552.2023.10341405.