物理优先+VLA闭环进化:高德ABot-World世界模型,破解具身智能零样本泛化难题
高精渲染引擎,解决”数据稀缺”
随着高德公开全球首款开放环境全自主具身机器人“途途”,,其背后的数据及训练基座——ABot-World世界模型同步引发行业关注。该模型实现了具身智能底层训练范式完成了从“传统视觉渲染”向“可微分物理引擎”的根本性迁移,为机器人从仿真走向真实物理世界提供了统一且可进化的操作系统。
ABot-World 创新性采用双引擎架构,在物理合规性、动作可控性与零样本泛化三大核心维度上同步实现突破,成为全球唯一在此三项关键指标上全面达到 SOTA 水平的模型。
与传统仿真依赖“像素级逼真”不同,ABot-World 确立了“物理优先”原则:系统生成的每一帧不仅是视觉画面,更是包含质量分布、惯性张量与接触力场的可微分物理状态快照。基于此架构,系统能够根据末端执行器位姿与夹爪状态,精确推演未来时空的动力学变化,实现高保真的“动作条件化”控制。
一、核心突破:从”视觉渲染”到”可微分物理引擎”
1.1 传统世界模型的局限
传统世界模型(如 Sora、Veo)主要基于最大似然估计(MLE)在通用视频数据上训练,本质是概率分布下的像素预测器,缺乏对质量、摩擦、碰撞等物理定律的内建约束。这导致生成的机器人操作序列常出现:物体穿透、反重力悬浮、非接触抓取、接触缺失导致的运动不自然。这些问题不是简单的渲染瑕疵,而是物理推理的根本性失败,限制了模型在下游机器人应用中的可靠性。
1.2 ABot-World 的范式创新
ABot-World 将物理定律深度嵌入建模、训练与评估的全链路:
|
创新维度 |
传统模型 |
ABot-World |
|
优化目标 |
视觉美学 |
物理一致性(动力学合理、因果可推演) |
|
输出内容 |
像素矩阵 |
视频序列,隐含物理状态演化,行为符合力学规律 |
|
控制方式 |
文本提示 |
多模态条件输入:文本 + 动作指令(末端位姿+夹爪状态) |
|
进化能力 |
静态模型 |
支持VLA闭环:预测 → 执行 → 反馈 → 自我修正 |
三大核心特性:
1. 物理优先的建模范式
不再单纯追求视觉美学,而是将物理一致性作为核心优化目标。每一帧生成结果不仅是像素矩阵,更是包含质量、惯性张量、接触力场的可微分物理状态快照。
2. 动作条件化的因果推演
通过解耦的动作注入模块,模型能够根据给定的末端执行器位姿(End-effector Pose)和夹爪状态,精确推演未来的时空动力学变化,实现”指令即因果”的可控生成。
3. 闭环进化的认知基座
支持”预测 – 执行 – 反馈”的 VLA(Vision-Language-Action)闭环,使模型具备在真实环境中通过误差信号自我修正的能力。
二、双引擎驱动架构

图:ABot-World 双引擎驱动架构——ABot-3DGS(数字孪生工厂)× ABot-PhysWorld(物理引擎内核)
我们将世界模型定义为机器人世界的操作系统内核,必须能理解物理、响应指令、预测后果、并支持闭环进化。为此构建了”双引擎驱动”的全新架构范式:
● ABot-3DGS:物理世界的”数字孪生工厂”
● ABot-PhysWorld:因果推演的”物理引擎内核”
2.1 ABot-3DGS:高精渲染引擎,解决”数据稀缺”
以高德积累的厘米级城市、道路、室内空间数据 + 真实轨迹数据为基础,结合前沿的 3D Gaussian Splatting(3DGS)技术,构建”可编程的数字孪生空间”。
核心能力:
● 海量场景重建:基于高德地图数据生成亿级高保真无限尺寸的仿真场景
● 任意视角合成:无需真实摄像头,即可渲染多形态机器人操作场景
● 跨形态泛化:支持单臂、双臂、灵巧手、足式机器人等不同本体的数据生成
● 长尾覆盖:通过背景编辑、遮挡模拟、光照扰动,覆盖 99% 典型长尾交互场景
技术实现:
● 利用 3DGS 的高保真渲染能力,实现照片级真实的场景重建
● 支持实时视角切换和动态光照调整
● 可编程的物理属性标注,为每个场景元素赋予质量、摩擦系数等物理参数
架构定位:它不是数据增强工具,而是具身智能的”数据原生引擎”,主动创造比现实更丰富、更可控、更物理一致的训练宇宙。
2.2 ABot-PhysWorld:可微分推演引擎,解决”物理失真”
基于 14B 参数的 Diffusion Transformer 主干,在 300 万条真实操作视频上训练,提出”物理优先”的建模范式。
核心能力:
● 动作条件化推演:给定末端执行器位姿与夹爪状态,精确预测未来时空动力学变化
● 因果链建模:支持”指令→状态变化→结果反馈”的 VLA 闭环
● 可微分物理状态输出:每一帧不仅输出像素,还隐含质量、接触力场、惯性张量等物理属性
技术实现:
● 基于 Wan2.1-I2V-14B 主干网络进行全量微调
● 采用 LoRA 低秩适配技术进行高效参数优化
● 并行上下文块实现动作条件的空间注入
架构定位:它不是视频生成器,而是机器人的”物理思维引擎”,能回答”如果这样做,会发生什么?”
2.3 双引擎协同机制
|
流程类型 |
数据流向 |
价值 |
|
数据流 |
ABot-3DGS 生成亿级高保真仿真数据 → 输入 ABot-PhysWorld 进行物理对齐训练 |
从”数据制造”到”物理推演”的无缝衔接 |
|
控制流 |
用户输入指令 → ABot-PhysWorld 推演动作轨迹 → 输出物理合规视频 → 反馈至真实机器人执行 |
支持实时决策与规划 |
|
进化流 |
真实执行误差 → 回传至 ABot-PhysWorld → 更新模型参数 → 下一轮预测更精准 |
自生长、自修正、自适应 |
这是一个自生长、自修正、自适应的具身智能操作系统,每一次执行,都在为世界模型注入新的物理认知。
三、ABot-PhysWorld:面向机器人操作任务的物理对齐世界模型
|
维度 |
创新点 |
|
数据 |
结构化采样 + 物理语义标注 → 构建因果理解基础 |
|
架构 |
冻结主干+LoRA+动作注入 → 零样本控制+低显存占用 |
|
训练 |
解耦判别+Diffusion-DPO → 学会物理规律判别 |
核心能力:基于140亿参数Diffusion Transformer主干架构,通过系统性数据治理 + 物理约束注入 + 闭环评估机制三位一体设计,实现物理一致性、动作可控性、零样本泛化能力的有机统一。

3.1 数据构建:结构化采样 × 物理语义标注
数据来源与规模:整合五大主流开源数据集(AgiBot、RoboCoin、RoboMind、Galaxea、OXE),涵盖多形态机器人与长尾任务场景,累计汇聚近 300万条真实操作视频片段,为模型提供丰富的具身交互信号基础。
1、 四层分层采样策略:保证多样性与平衡性
|
层级 |
目标 |
实现方式 |
|
第一层:内部多样性保留 |
防止稀有交互模式丢失 |
保留OXE等聚合数据集中小型子集 |
|
第二层:跨机器人重平衡 |
增强跨平台泛化 |
对欠代表机器人类型上权重 |
|
第三层:任务感知配额分配 |
抑制头部任务主导 |
头部任务≤15%,中部任务40–50%,长尾任务全量保留 |
|
第四层:宏观规模调控 |
平衡数据集体量差异 |
AgiBot/OXE降采样;RoboMind保证最低覆盖率,三轮补充改善长尾 |
2、 物理感知标注系:双阶段+四层级语义结构
采用 VLM + LLM 双阶段协同标注,将每段视频转化为结构化物理语义描述,分为四个层级:
● 宏观层(意图):自然语言描述整体任务目标,如:“抓取并放置苹果”。
● 中观层(动作序列):动词-名词短语序列,如:“接近 → 抓握 → 提起 → 移动 → 释放”。
● 微观层(轨迹细节):记录笛卡尔轨迹、相对运动、夹爪状态,如:“末端沿Z轴下降5cm,夹爪闭合至20mm”。
● 场景层(物理关系):描述接触、支撑、包含关系及任务结果,如:“苹果与桌面接触,被夹爪稳固抓握,成功放置于袋中”。
3、 四级叙事结构:构建因果理解基础
标注流程按四级叙事推进:场景构建 → 动作流程 →最终状态确认 → 镜头总结
不仅回答“发生了什么”,更解释“为什么发生”,为世界模型训练奠定因果推理与物理规律理解的语义基础。
3.2 模型架构:物理对齐的工程实现路径

ABot-PhysWorld 的核心是确保生成结果在动力学上合理、在控制上可响应、在训练上可持续。该模型基于 DiT 主干构建,但在训练策略与结构设计上做了关键调整,使其能够内化物理规律并支持动作条件化推演。整个训练分为两个阶段:
● 第一阶段:监督微调。模型学习从当前视觉状态与语言指令出发,预测未来若干帧的演化,建立基础的时序建模能力。
● 第二阶段:偏好优化机制。在冻结主干的前提下,通过轻量级适配器对模型进行定向调整。这一阶段不再依赖像素相似度,而是以“物理合理性”作为优化信号——模型生成多个候选视频,由辅助评估模块判断其是否符合物理常识(如接触是否存在、运动是否受重力影响等),并据此强化合规行为、抑制违规输出。这使模型逐步学会区分“看起来像”和“物理上对”,从而提升在真实任务中的可靠性。
架构上的关键技术支撑体现在两方面:
● 基于 LoRA 的轻量化参数适配机制。在保持主干网络完整性的前提下,仅对部分潜空间参数进行微调,显著降低训练成本与显存占用,同时避免破坏预训练获得的通用视觉先验。这种设计使得模型既能吸收大规模数据中的语义知识,又能专注优化与物理建模相关的局部能力。
● 并行上下文注入机制。模型支持将末端执行器位姿与夹爪状态作为显式输入,通过空间编码方式嵌入到生成过程中。这种机制并非简单叠加特征,而是在Transformer结构中并行引入动作上下文,使每一帧的生成都受到当前控制意图的影响,从而实现“指令即因果”的可控推演。该设计天然支持多形态机器人控制,无需针对不同本体重新训练,具备良好的零样本泛化能力。
ABot-PhysWorld 的架构设计在保证主干模型泛化能力的前提下,通过轻量适配与条件注入机制,实现物理一致性、动作可控性与训练效率的协同优化。其目标是解决机器人世界模型的关键约束:输出需符合物理规律、响应需匹配控制指令、训练需控制资源开销。
3.3 训练方法:解耦判别 + Diffusion-DPO
传统世界模型采用最大似然估计(MLE)进行训练,其优化目标为最小化生成帧与真实帧之间的像素级差异。该方式在通用视频生成任务中有效,但在机器人操作场景中存在结构性缺陷:它无法区分物理合规与物理违规样本。例如,物体穿透、无接触抓取、反重力运动等行为,只要像素分布接近真实数据,仍可能被模型视为合法输出。这导致生成结果在视觉上合理,但在动力学上不可执行,限制其在真实机器人系统中的可用性。
ABot-PhysWorld 的训练方法引入物理判别机制,将优化目标从“像素相似度”转向“物理一致性”。具体实现路径为:在冻结主干网络的前提下,通过结构化评估体系对候选输出进行物理合规性评分,并基于此构建对比学习信号,驱动模型向更符合物理规律的方向演化。该机制包含两个核心组件:
● proposer module:负责根据初始状态与指令,动态构建该任务下的物理检查清单——即哪些行为是允许的、哪些是致命违规(如穿透、无接触抓取、反重力运动),哪些属于细微但关键的物理保真点(如接触力反馈、摩擦响应)。
● scorer module:对多个候选生成结果进行逐帧评估,不仅判断是否完成任务,更关注其过程是否符合物理常识,并输出结构化推理路径作为反馈信号。
分层物理检查清单
|
层级 |
类型 |
示例 |
权重 |
|
L1 |
致命违规 |
物体穿透、反重力 |
一票否决 |
|
L2 |
微物理保真 |
接触动力学、摩擦响应 |
区分合规样本 |
|
L3 |
负面问题强制占比 |
“红苹果是否变绿?” |
30–50%,防捷径学习 |
训练过程采用扩散空间内的偏好优化(Diffusion-DPO),在潜空间层面对合规样本提升置信度,对违规样本降低置信度。该方法避免了传统MLE对所有误差平等对待的问题,使模型在训练过程中主动规避物理错误,而非被动模仿表面相似性。
为控制计算开销,整个训练在冻结主干网络的基础上进行,仅对轻量适配器模块进行参数更新。同时,在计算参考输出时采用临时关闭适配器的策略,避免维护完整副本,从而显著降低显存占用与计算成本。实测显示,该方案在14B参数规模下可节省60%以上显存,同时保持训练稳定性与收敛效率。
最终,ABot-PhysWorld 的输出视频在视觉上连续、在动力学上合理,支持末端执行器位姿与夹爪状态作为输入进行可控推演,具备跨形态、零样本、高精度的动作响应能力。其训练机制不是为了提升渲染质量,而是为了确保生成结果在物理层面可被机器人系统安全执行。
四、权威评测:全面 SOTA 性能

ABot-World 在主流评测基准中的 SOTA 表现
ABot-World 在多个公开且具有代表性的具身智能评测 Leaderboard 和 Benchmark 上完成系统性测试,覆盖物理合规性、动作可控性与零样本泛化能力三个关键维度。所有测试均基于标准协议,结果可复现,数据来源透明。
Challenge Leaderboard 和 Benchmark 说明:
- WorldArena:由清华大学与CVPR联合发起,聚焦文本后 action 驱动下的物理合理性评估,尤其关注物体交互过程中的动力学一致性。
- Agibot World Challenge:由智元机器人与ICRA共同发起,包含多步骤、长时序、高复杂度操作任务,用于评估模型在真实机器人场景中的因果推理与执行稳定性。
- WorldScore:由李飞飞团队主导,综合评估视觉生成质量、语义对齐度与动作响应准确性,适用于多模态世界模型横向对比。
- GigaBrain World Model Challenge:由 GigaAI 主办的 World Model 赛道,聚焦评测世界模型作为 VLA 评估器的能力。
- PBench:由 CMU 等提出的面向物理感知与预测能力的统一评估框架,涵盖视频生成与条件视频生成等任务,采用任务对齐的量化指标,重点评估生成内容在物理合理性、运动连续性与因果推断上的表现。
- EZSbench:由本团队构建的零样本评估基准,不依赖训练数据分布,用于衡量模型在未见过任务与机器人形态下的泛化能力。
在以上 Leaderboard 和 Benchmark 的测试中,主要与以下主流世界模型进行横向比较:Sora v2 Pro(OpenAI)、 Veo 3.1(Google)、Cosmos(NVIDIA)、GigaWorld(GigaAI)、UniFoLM(UniTree)。所有模型均在相同输入条件下运行,使用统一评估脚本与评分标准。
截至 2026 年 4 月 14 日,ABot-World 成为全场唯一在“物理合规性”、“动作可控性”与“零样本泛化”三大核心维度同时斩获 SOTA 的模型:它不仅在 EZSbench 上刷新历史纪录,更在 WorldArena 的纯文本控制任务中展现出卓越的物理合理性,并在 Agibot World Challenge 的复杂长程任务中证明了强大的因果推理能力。这一里程碑式的成就,标志着 ABot-World 已超越传统视频生成模型的范畴,真正具备了服务于真实机器人策略学习的工业级可靠性。
五、ABot-PhysWorld 与 VLA/WAM 的协同进化

5.1 ABot-PhysWorld 作为高质量训练数据生成器,驱动 VLA 策略预训练
ABot-PhysWorld 已深度接入 VLA 闭环体系,不再仅是被动执行平台,而是成为主动的数据引擎。它通过物理仿真环境,自主生成多样化、高保真的交互轨迹——包括成功动作序列、失败探索路径、边界状态等——这些轨迹直接用于 VLA 模型的策略预训练。
该过程无需依赖昂贵的人类演示,也避免了真实环境中高风险操作。每一次虚拟演练都为模型提供丰富的上下文样本,显著提升其在少样本条件下的泛化能力与鲁棒性,构建起可随任务扩展而持续生长的认知基座。
5.2 ABot-PhysWorld 输出语义奖励信号,支撑 VLA 的强化学习优化

在闭环中,ABot-PhysWorld 不仅生成数据,更承担“评估者”角色:它结合视觉语言模型(VLM),对当前执行轨迹与语言指令的语义一致性进行实时评分,输出连续值奖励信号(0~1)及任务完成终止信号。
这一机制解决了传统 RL 中“稀疏奖励+延迟终止”的痛点,使 VLA 能在每一步获得精准反馈,从而通过强化学习(如 PPO + LOOP)进行梯度优化。模型不再盲目试错,而是聚焦于语义目标达成的关键路径,大幅提升训练效率与最终成功率。
ABot-PhysWorld 不再只是执行者,而是 VLA 的“教练+裁判”——既提供高质量训练数据,又输出智能奖励信号,共同推动模型在闭环中持续进化。
5.3 World Action Model:ABot-Dream —— 物理世界的自主决策代理
更进一步,ABot-PhysWorld 自身可演化为一个世界动作模型(World Action Model, WAM),即 ABot-Dream—— 我们即将发布的下一代智能体架构。
ABot-Dream 不是另一个“机器人控制器”,而是“物理世界中的通用决策引擎”——它让机器不仅“能动”,更能“会想”、“会判断”、“会进化”。ABot-Dream 是一个融合了物理仿真、语义理解、动作规划与强化学习优化的端到端具身智能系统,其核心能力在于:
- 在环境中自主生成并执行复杂任务策略;
- 将策略无缝迁移至真实机器人平台(如机械臂、四足机器人、移动底盘等),具有强大的泛化能力;
- 通过闭环反馈机制持续自我优化,形成“预训练强泛化 → 真实部署 → 数据回流 → 模型升级”的正向循环。
简言之,ABot-Dream是 ABot-PhysWorld 的“高级形态”,是迈向通用具身智能的关键基础设施。
六、Coming Soon:实时可交互的 ABot-World
基于 ABot-PhysWorld 的架构基础,下一代 ABot-World 正在向支持实时响应、多模态融合与因果推演的方向演进,其核心能力升级体现在以下三个维度:
6.1 实时交互能力
- 系统响应模式从离线批量生成转向在线实时推演,支持毫秒级延迟响应机器人控制指令。
- 时序一致性由秒级批处理升级为帧级流式反馈,确保预测结果与执行动作在时间轴上严格对齐。
- 输入信号扩展至多模态融合,支持语言、视觉观测、力觉传感器等数据同步注入,构建贴近真实操作环境的闭环交互通道。
6.2 功能扩展方向
- 多视角生成:突破固定相机视角限制,支持任意空间角度的实时渲染与轨迹规划,提升复杂场景下的感知与决策能力。
- 因果与反事实推演:模型不仅能预测“下一步会发生什么”,还能模拟“如果改变某个动作或参数,结果会如何变化”,支撑策略优化与风险预判。
- 跨形态自适应控制:针对未见过的机器人本体(如双臂、足式、灵巧手),通过隐式动作编码机制自动适配控制策略,无需重新训练主干网络。
6.3 典型应用场景
- 在环策略优化:机器人在仿真环境中执行策略,世界模型实时反馈物理状态变化,驱动策略迭代,缩短从仿真到部署的周期。
- 人机协同界面:操作者可通过可视化预测视频辅助决策,在关键节点介入调整,提升人机协作效率。
- 自主技能迁移:模型在虚拟环境中自主探索长尾任务,积累经验并迁移到真实机器人,降低对人工演示的依赖。
来源:高德地图
版权所有,未经授权不得以任何形式转载及使用,违者必究。
Related Articles
教你用AI一节课收17万,华尔街精英排着队付费
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-06-07 ...
5分钟AI长视频不翻车!国产开源框架杀到全球第一梯队
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-06-07 ...
The mayor of Shelbyville, Indiana, says only people who live in ‘shitty houses’ oppose data center
Terrence O'Brien is the Verge’s weekend editor. He has over 18 years of experience, including 10 years as managing editor at Engadget.A proposed $2 billion data center has become a political flashpoint in the...
Meta made its own AI-generated clickbait news feed
Facebook has long been filled with feeds of clickbait articles. Now, Meta is making its own clickbait articles with AI.The standalone Meta AI app now has a “For You” section that populates a list of...