物理优先+VLA闭环进化:高德ABot-World世界模型,破解具身智能零样本泛化难题
高精渲染引擎,解决”数据稀缺”
随着高德公开全球首款开放环境全自主具身机器人“途途”,,其背后的数据及训练基座——ABot-World世界模型同步引发行业关注。该模型实现了具身智能底层训练范式完成了从“传统视觉渲染”向“可微分物理引擎”的根本性迁移,为机器人从仿真走向真实物理世界提供了统一且可进化的操作系统。
ABot-World 创新性采用双引擎架构,在物理合规性、动作可控性与零样本泛化三大核心维度上同步实现突破,成为全球唯一在此三项关键指标上全面达到 SOTA 水平的模型。
与传统仿真依赖“像素级逼真”不同,ABot-World 确立了“物理优先”原则:系统生成的每一帧不仅是视觉画面,更是包含质量分布、惯性张量与接触力场的可微分物理状态快照。基于此架构,系统能够根据末端执行器位姿与夹爪状态,精确推演未来时空的动力学变化,实现高保真的“动作条件化”控制。
一、核心突破:从”视觉渲染”到”可微分物理引擎”
1.1 传统世界模型的局限
传统世界模型(如 Sora、Veo)主要基于最大似然估计(MLE)在通用视频数据上训练,本质是概率分布下的像素预测器,缺乏对质量、摩擦、碰撞等物理定律的内建约束。这导致生成的机器人操作序列常出现:物体穿透、反重力悬浮、非接触抓取、接触缺失导致的运动不自然。这些问题不是简单的渲染瑕疵,而是物理推理的根本性失败,限制了模型在下游机器人应用中的可靠性。
1.2 ABot-World 的范式创新
ABot-World 将物理定律深度嵌入建模、训练与评估的全链路:
|
创新维度 |
传统模型 |
ABot-World |
|
优化目标 |
视觉美学 |
物理一致性(动力学合理、因果可推演) |
|
输出内容 |
像素矩阵 |
视频序列,隐含物理状态演化,行为符合力学规律 |
|
控制方式 |
文本提示 |
多模态条件输入:文本 + 动作指令(末端位姿+夹爪状态) |
|
进化能力 |
静态模型 |
支持VLA闭环:预测 → 执行 → 反馈 → 自我修正 |
三大核心特性:
1. 物理优先的建模范式
不再单纯追求视觉美学,而是将物理一致性作为核心优化目标。每一帧生成结果不仅是像素矩阵,更是包含质量、惯性张量、接触力场的可微分物理状态快照。
2. 动作条件化的因果推演
通过解耦的动作注入模块,模型能够根据给定的末端执行器位姿(End-effector Pose)和夹爪状态,精确推演未来的时空动力学变化,实现”指令即因果”的可控生成。
3. 闭环进化的认知基座
支持”预测 – 执行 – 反馈”的 VLA(Vision-Language-Action)闭环,使模型具备在真实环境中通过误差信号自我修正的能力。
二、双引擎驱动架构

图:ABot-World 双引擎驱动架构——ABot-3DGS(数字孪生工厂)× ABot-PhysWorld(物理引擎内核)
我们将世界模型定义为机器人世界的操作系统内核,必须能理解物理、响应指令、预测后果、并支持闭环进化。为此构建了”双引擎驱动”的全新架构范式:
● ABot-3DGS:物理世界的”数字孪生工厂”
● ABot-PhysWorld:因果推演的”物理引擎内核”
2.1 ABot-3DGS:高精渲染引擎,解决”数据稀缺”
以高德积累的厘米级城市、道路、室内空间数据 + 真实轨迹数据为基础,结合前沿的 3D Gaussian Splatting(3DGS)技术,构建”可编程的数字孪生空间”。
核心能力:
● 海量场景重建:基于高德地图数据生成亿级高保真无限尺寸的仿真场景
● 任意视角合成:无需真实摄像头,即可渲染多形态机器人操作场景
● 跨形态泛化:支持单臂、双臂、灵巧手、足式机器人等不同本体的数据生成
● 长尾覆盖:通过背景编辑、遮挡模拟、光照扰动,覆盖 99% 典型长尾交互场景
技术实现:
● 利用 3DGS 的高保真渲染能力,实现照片级真实的场景重建
● 支持实时视角切换和动态光照调整
● 可编程的物理属性标注,为每个场景元素赋予质量、摩擦系数等物理参数
架构定位:它不是数据增强工具,而是具身智能的”数据原生引擎”,主动创造比现实更丰富、更可控、更物理一致的训练宇宙。
2.2 ABot-PhysWorld:可微分推演引擎,解决”物理失真”
基于 14B 参数的 Diffusion Transformer 主干,在 300 万条真实操作视频上训练,提出”物理优先”的建模范式。
核心能力:
● 动作条件化推演:给定末端执行器位姿与夹爪状态,精确预测未来时空动力学变化
● 因果链建模:支持”指令→状态变化→结果反馈”的 VLA 闭环
● 可微分物理状态输出:每一帧不仅输出像素,还隐含质量、接触力场、惯性张量等物理属性
技术实现:
● 基于 Wan2.1-I2V-14B 主干网络进行全量微调
● 采用 LoRA 低秩适配技术进行高效参数优化
● 并行上下文块实现动作条件的空间注入
架构定位:它不是视频生成器,而是机器人的”物理思维引擎”,能回答”如果这样做,会发生什么?”
2.3 双引擎协同机制
|
流程类型 |
数据流向 |
价值 |
|
数据流 |
ABot-3DGS 生成亿级高保真仿真数据 → 输入 ABot-PhysWorld 进行物理对齐训练 |
从”数据制造”到”物理推演”的无缝衔接 |
|
控制流 |
用户输入指令 → ABot-PhysWorld 推演动作轨迹 → 输出物理合规视频 → 反馈至真实机器人执行 |
支持实时决策与规划 |
|
进化流 |
真实执行误差 → 回传至 ABot-PhysWorld → 更新模型参数 → 下一轮预测更精准 |
自生长、自修正、自适应 |
这是一个自生长、自修正、自适应的具身智能操作系统,每一次执行,都在为世界模型注入新的物理认知。
三、ABot-PhysWorld:面向机器人操作任务的物理对齐世界模型
|
维度 |
创新点 |
|
数据 |
结构化采样 + 物理语义标注 → 构建因果理解基础 |
|
架构 |
冻结主干+LoRA+动作注入 → 零样本控制+低显存占用 |
|
训练 |
解耦判别+Diffusion-DPO → 学会物理规律判别 |
核心能力:基于140亿参数Diffusion Transformer主干架构,通过系统性数据治理 + 物理约束注入 + 闭环评估机制三位一体设计,实现物理一致性、动作可控性、零样本泛化能力的有机统一。

3.1 数据构建:结构化采样 × 物理语义标注
数据来源与规模:整合五大主流开源数据集(AgiBot、RoboCoin、RoboMind、Galaxea、OXE),涵盖多形态机器人与长尾任务场景,累计汇聚近 300万条真实操作视频片段,为模型提供丰富的具身交互信号基础。
1、 四层分层采样策略:保证多样性与平衡性
|
层级 |
目标 |
实现方式 |
|
第一层:内部多样性保留 |
防止稀有交互模式丢失 |
保留OXE等聚合数据集中小型子集 |
|
第二层:跨机器人重平衡 |
增强跨平台泛化 |
对欠代表机器人类型上权重 |
|
第三层:任务感知配额分配 |
抑制头部任务主导 |
头部任务≤15%,中部任务40–50%,长尾任务全量保留 |
|
第四层:宏观规模调控 |
平衡数据集体量差异 |
AgiBot/OXE降采样;RoboMind保证最低覆盖率,三轮补充改善长尾 |
2、 物理感知标注系:双阶段+四层级语义结构
采用 VLM + LLM 双阶段协同标注,将每段视频转化为结构化物理语义描述,分为四个层级:
● 宏观层(意图):自然语言描述整体任务目标,如:“抓取并放置苹果”。
● 中观层(动作序列):动词-名词短语序列,如:“接近 → 抓握 → 提起 → 移动 → 释放”。
● 微观层(轨迹细节):记录笛卡尔轨迹、相对运动、夹爪状态,如:“末端沿Z轴下降5cm,夹爪闭合至20mm”。
● 场景层(物理关系):描述接触、支撑、包含关系及任务结果,如:“苹果与桌面接触,被夹爪稳固抓握,成功放置于袋中”。
3、 四级叙事结构:构建因果理解基础
标注流程按四级叙事推进:场景构建 → 动作流程 →最终状态确认 → 镜头总结
不仅回答“发生了什么”,更解释“为什么发生”,为世界模型训练奠定因果推理与物理规律理解的语义基础。
3.2 模型架构:物理对齐的工程实现路径

ABot-PhysWorld 的核心是确保生成结果在动力学上合理、在控制上可响应、在训练上可持续。该模型基于 DiT 主干构建,但在训练策略与结构设计上做了关键调整,使其能够内化物理规律并支持动作条件化推演。整个训练分为两个阶段:
● 第一阶段:监督微调。模型学习从当前视觉状态与语言指令出发,预测未来若干帧的演化,建立基础的时序建模能力。
● 第二阶段:偏好优化机制。在冻结主干的前提下,通过轻量级适配器对模型进行定向调整。这一阶段不再依赖像素相似度,而是以“物理合理性”作为优化信号——模型生成多个候选视频,由辅助评估模块判断其是否符合物理常识(如接触是否存在、运动是否受重力影响等),并据此强化合规行为、抑制违规输出。这使模型逐步学会区分“看起来像”和“物理上对”,从而提升在真实任务中的可靠性。
架构上的关键技术支撑体现在两方面:
● 基于 LoRA 的轻量化参数适配机制。在保持主干网络完整性的前提下,仅对部分潜空间参数进行微调,显著降低训练成本与显存占用,同时避免破坏预训练获得的通用视觉先验。这种设计使得模型既能吸收大规模数据中的语义知识,又能专注优化与物理建模相关的局部能力。
● 并行上下文注入机制。模型支持将末端执行器位姿与夹爪状态作为显式输入,通过空间编码方式嵌入到生成过程中。这种机制并非简单叠加特征,而是在Transformer结构中并行引入动作上下文,使每一帧的生成都受到当前控制意图的影响,从而实现“指令即因果”的可控推演。该设计天然支持多形态机器人控制,无需针对不同本体重新训练,具备良好的零样本泛化能力。
ABot-PhysWorld 的架构设计在保证主干模型泛化能力的前提下,通过轻量适配与条件注入机制,实现物理一致性、动作可控性与训练效率的协同优化。其目标是解决机器人世界模型的关键约束:输出需符合物理规律、响应需匹配控制指令、训练需控制资源开销。
3.3 训练方法:解耦判别 + Diffusion-DPO
传统世界模型采用最大似然估计(MLE)进行训练,其优化目标为最小化生成帧与真实帧之间的像素级差异。该方式在通用视频生成任务中有效,但在机器人操作场景中存在结构性缺陷:它无法区分物理合规与物理违规样本。例如,物体穿透、无接触抓取、反重力运动等行为,只要像素分布接近真实数据,仍可能被模型视为合法输出。这导致生成结果在视觉上合理,但在动力学上不可执行,限制其在真实机器人系统中的可用性。
ABot-PhysWorld 的训练方法引入物理判别机制,将优化目标从“像素相似度”转向“物理一致性”。具体实现路径为:在冻结主干网络的前提下,通过结构化评估体系对候选输出进行物理合规性评分,并基于此构建对比学习信号,驱动模型向更符合物理规律的方向演化。该机制包含两个核心组件:
● proposer module:负责根据初始状态与指令,动态构建该任务下的物理检查清单——即哪些行为是允许的、哪些是致命违规(如穿透、无接触抓取、反重力运动),哪些属于细微但关键的物理保真点(如接触力反馈、摩擦响应)。
● scorer module:对多个候选生成结果进行逐帧评估,不仅判断是否完成任务,更关注其过程是否符合物理常识,并输出结构化推理路径作为反馈信号。
分层物理检查清单
|
层级 |
类型 |
示例 |
权重 |
|
L1 |
致命违规 |
物体穿透、反重力 |
一票否决 |
|
L2 |
微物理保真 |
接触动力学、摩擦响应 |
区分合规样本 |
|
L3 |
负面问题强制占比 |
“红苹果是否变绿?” |
30–50%,防捷径学习 |
训练过程采用扩散空间内的偏好优化(Diffusion-DPO),在潜空间层面对合规样本提升置信度,对违规样本降低置信度。该方法避免了传统MLE对所有误差平等对待的问题,使模型在训练过程中主动规避物理错误,而非被动模仿表面相似性。
为控制计算开销,整个训练在冻结主干网络的基础上进行,仅对轻量适配器模块进行参数更新。同时,在计算参考输出时采用临时关闭适配器的策略,避免维护完整副本,从而显著降低显存占用与计算成本。实测显示,该方案在14B参数规模下可节省60%以上显存,同时保持训练稳定性与收敛效率。
最终,ABot-PhysWorld 的输出视频在视觉上连续、在动力学上合理,支持末端执行器位姿与夹爪状态作为输入进行可控推演,具备跨形态、零样本、高精度的动作响应能力。其训练机制不是为了提升渲染质量,而是为了确保生成结果在物理层面可被机器人系统安全执行。
四、权威评测:全面 SOTA 性能

ABot-World 在主流评测基准中的 SOTA 表现
ABot-World 在多个公开且具有代表性的具身智能评测 Leaderboard 和 Benchmark 上完成系统性测试,覆盖物理合规性、动作可控性与零样本泛化能力三个关键维度。所有测试均基于标准协议,结果可复现,数据来源透明。
Challenge Leaderboard 和 Benchmark 说明:
- WorldArena:由清华大学与CVPR联合发起,聚焦文本后 action 驱动下的物理合理性评估,尤其关注物体交互过程中的动力学一致性。
- Agibot World Challenge:由智元机器人与ICRA共同发起,包含多步骤、长时序、高复杂度操作任务,用于评估模型在真实机器人场景中的因果推理与执行稳定性。
- WorldScore:由李飞飞团队主导,综合评估视觉生成质量、语义对齐度与动作响应准确性,适用于多模态世界模型横向对比。
- GigaBrain World Model Challenge:由 GigaAI 主办的 World Model 赛道,聚焦评测世界模型作为 VLA 评估器的能力。
- PBench:由 CMU 等提出的面向物理感知与预测能力的统一评估框架,涵盖视频生成与条件视频生成等任务,采用任务对齐的量化指标,重点评估生成内容在物理合理性、运动连续性与因果推断上的表现。
- EZSbench:由本团队构建的零样本评估基准,不依赖训练数据分布,用于衡量模型在未见过任务与机器人形态下的泛化能力。
在以上 Leaderboard 和 Benchmark 的测试中,主要与以下主流世界模型进行横向比较:Sora v2 Pro(OpenAI)、 Veo 3.1(Google)、Cosmos(NVIDIA)、GigaWorld(GigaAI)、UniFoLM(UniTree)。所有模型均在相同输入条件下运行,使用统一评估脚本与评分标准。
截至 2026 年 4 月 14 日,ABot-World 成为全场唯一在“物理合规性”、“动作可控性”与“零样本泛化”三大核心维度同时斩获 SOTA 的模型:它不仅在 EZSbench 上刷新历史纪录,更在 WorldArena 的纯文本控制任务中展现出卓越的物理合理性,并在 Agibot World Challenge 的复杂长程任务中证明了强大的因果推理能力。这一里程碑式的成就,标志着 ABot-World 已超越传统视频生成模型的范畴,真正具备了服务于真实机器人策略学习的工业级可靠性。
五、ABot-PhysWorld 与 VLA/WAM 的协同进化

5.1 ABot-PhysWorld 作为高质量训练数据生成器,驱动 VLA 策略预训练
ABot-PhysWorld 已深度接入 VLA 闭环体系,不再仅是被动执行平台,而是成为主动的数据引擎。它通过物理仿真环境,自主生成多样化、高保真的交互轨迹——包括成功动作序列、失败探索路径、边界状态等——这些轨迹直接用于 VLA 模型的策略预训练。
该过程无需依赖昂贵的人类演示,也避免了真实环境中高风险操作。每一次虚拟演练都为模型提供丰富的上下文样本,显著提升其在少样本条件下的泛化能力与鲁棒性,构建起可随任务扩展而持续生长的认知基座。
5.2 ABot-PhysWorld 输出语义奖励信号,支撑 VLA 的强化学习优化

在闭环中,ABot-PhysWorld 不仅生成数据,更承担“评估者”角色:它结合视觉语言模型(VLM),对当前执行轨迹与语言指令的语义一致性进行实时评分,输出连续值奖励信号(0~1)及任务完成终止信号。
这一机制解决了传统 RL 中“稀疏奖励+延迟终止”的痛点,使 VLA 能在每一步获得精准反馈,从而通过强化学习(如 PPO + LOOP)进行梯度优化。模型不再盲目试错,而是聚焦于语义目标达成的关键路径,大幅提升训练效率与最终成功率。
ABot-PhysWorld 不再只是执行者,而是 VLA 的“教练+裁判”——既提供高质量训练数据,又输出智能奖励信号,共同推动模型在闭环中持续进化。
5.3 World Action Model:ABot-Dream —— 物理世界的自主决策代理
更进一步,ABot-PhysWorld 自身可演化为一个世界动作模型(World Action Model, WAM),即 ABot-Dream—— 我们即将发布的下一代智能体架构。
ABot-Dream 不是另一个“机器人控制器”,而是“物理世界中的通用决策引擎”——它让机器不仅“能动”,更能“会想”、“会判断”、“会进化”。ABot-Dream 是一个融合了物理仿真、语义理解、动作规划与强化学习优化的端到端具身智能系统,其核心能力在于:
- 在环境中自主生成并执行复杂任务策略;
- 将策略无缝迁移至真实机器人平台(如机械臂、四足机器人、移动底盘等),具有强大的泛化能力;
- 通过闭环反馈机制持续自我优化,形成“预训练强泛化 → 真实部署 → 数据回流 → 模型升级”的正向循环。
简言之,ABot-Dream是 ABot-PhysWorld 的“高级形态”,是迈向通用具身智能的关键基础设施。
六、Coming Soon:实时可交互的 ABot-World
基于 ABot-PhysWorld 的架构基础,下一代 ABot-World 正在向支持实时响应、多模态融合与因果推演的方向演进,其核心能力升级体现在以下三个维度:
6.1 实时交互能力
- 系统响应模式从离线批量生成转向在线实时推演,支持毫秒级延迟响应机器人控制指令。
- 时序一致性由秒级批处理升级为帧级流式反馈,确保预测结果与执行动作在时间轴上严格对齐。
- 输入信号扩展至多模态融合,支持语言、视觉观测、力觉传感器等数据同步注入,构建贴近真实操作环境的闭环交互通道。
6.2 功能扩展方向
- 多视角生成:突破固定相机视角限制,支持任意空间角度的实时渲染与轨迹规划,提升复杂场景下的感知与决策能力。
- 因果与反事实推演:模型不仅能预测“下一步会发生什么”,还能模拟“如果改变某个动作或参数,结果会如何变化”,支撑策略优化与风险预判。
- 跨形态自适应控制:针对未见过的机器人本体(如双臂、足式、灵巧手),通过隐式动作编码机制自动适配控制策略,无需重新训练主干网络。
6.3 典型应用场景
- 在环策略优化:机器人在仿真环境中执行策略,世界模型实时反馈物理状态变化,驱动策略迭代,缩短从仿真到部署的周期。
- 人机协同界面:操作者可通过可视化预测视频辅助决策,在关键节点介入调整,提升人机协作效率。
- 自主技能迁移:模型在虚拟环境中自主探索长尾任务,积累经验并迁移到真实机器人,降低对人工演示的依赖。
来源:高德地图
版权所有,未经授权不得以任何形式转载及使用,违者必究。
Related Articles
前小鹏汽车自动驾驶一号位李力耘出任众擎CTO,加速打造具身大脑
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-04-21 ...
John Ternus’ first big problem is AI
Less than a year ago, Apple made headlines for a lack of AI announcements at its annual WWDC event. Ten months later, the company has announced that hardware executive John Ternus will succeed longtime CEO Tim Cook as chief executive - and the official release doesn't mention AI once. Ternus, currently Apple's SVP of hardware engineering, will take over as CEO on September 1st, after Cook's decade and a half in the role. Ternus is a 25-year veteran of the company and the first Apple CEO in abou
5月20日,马上AI起来!中国AIGC产业峰会报名已启动|首波嘉宾官宣
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-04-21 ...
Yelp is making its AI chatbot way more useful
Robert Hart is a London-based reporter at The Verge covering all things AI and a Senior Tarbell Fellow. Previously, he wrote about health, science and tech for Forbes.Yelp is giving its chatbot assistant a...