物理优先+VLA闭环进化：高德ABot-World世界模型，破解具身智能零样本泛化难题

高精渲染引擎，解决”数据稀缺”

随着高德公开全球首款开放环境全自主具身机器人“途途”，，其背后的数据及训练基座——ABot-World世界模型同步引发行业关注。该模型实现了具身智能底层训练范式完成了从“传统视觉渲染”向“可微分物理引擎”的根本性迁移，为机器人从仿真走向真实物理世界提供了统一且可进化的操作系统。

ABot-World 创新性采用双引擎架构，在物理合规性、动作可控性与零样本泛化三大核心维度上同步实现突破，成为全球唯一在此三项关键指标上全面达到 SOTA 水平的模型。

与传统仿真依赖“像素级逼真”不同，ABot-World 确立了“物理优先”原则：系统生成的每一帧不仅是视觉画面，更是包含质量分布、惯性张量与接触力场的可微分物理状态快照。基于此架构，系统能够根据末端执行器位姿与夹爪状态，精确推演未来时空的动力学变化，实现高保真的“动作条件化”控制。

一、核心突破：从”视觉渲染”到”可微分物理引擎”

1.1 传统世界模型的局限

传统世界模型（如 Sora、Veo）主要基于最大似然估计（MLE）在通用视频数据上训练，本质是概率分布下的像素预测器，缺乏对质量、摩擦、碰撞等物理定律的内建约束。这导致生成的机器人操作序列常出现：物体穿透、反重力悬浮、非接触抓取、接触缺失导致的运动不自然。这些问题不是简单的渲染瑕疵，而是物理推理的根本性失败，限制了模型在下游机器人应用中的可靠性。

1.2 ABot-World 的范式创新

ABot-World 将物理定律深度嵌入建模、训练与评估的全链路：

创新维度	传统模型	ABot-World
优化目标	视觉美学	物理一致性（动力学合理、因果可推演）
输出内容	像素矩阵	视频序列，隐含物理状态演化，行为符合力学规律
控制方式	文本提示	多模态条件输入：文本 + 动作指令（末端位姿+夹爪状态）
进化能力	静态模型	支持VLA闭环：预测 → 执行 → 反馈 → 自我修正

三大核心特性：

1. 物理优先的建模范式
不再单纯追求视觉美学，而是将物理一致性作为核心优化目标。每一帧生成结果不仅是像素矩阵，更是包含质量、惯性张量、接触力场的可微分物理状态快照。

2. 动作条件化的因果推演
通过解耦的动作注入模块，模型能够根据给定的末端执行器位姿（End-effector Pose）和夹爪状态，精确推演未来的时空动力学变化，实现”指令即因果”的可控生成。

3. 闭环进化的认知基座
支持”预测 – 执行 – 反馈”的 VLA（Vision-Language-Action）闭环，使模型具备在真实环境中通过误差信号自我修正的能力。

二、双引擎驱动架构

图：ABot-World 双引擎驱动架构——ABot-3DGS（数字孪生工厂）× ABot-PhysWorld（物理引擎内核）

我们将世界模型定义为机器人世界的操作系统内核，必须能理解物理、响应指令、预测后果、并支持闭环进化。为此构建了”双引擎驱动”的全新架构范式：

● ABot-3DGS：物理世界的”数字孪生工厂”

● ABot-PhysWorld：因果推演的”物理引擎内核”

2.1 ABot-3DGS：高精渲染引擎，解决”数据稀缺”

以高德积累的厘米级城市、道路、室内空间数据 + 真实轨迹数据为基础，结合前沿的 3D Gaussian Splatting（3DGS）技术，构建”可编程的数字孪生空间”。

核心能力：

● 海量场景重建：基于高德地图数据生成亿级高保真无限尺寸的仿真场景

● 任意视角合成：无需真实摄像头，即可渲染多形态机器人操作场景

● 跨形态泛化：支持单臂、双臂、灵巧手、足式机器人等不同本体的数据生成

● 长尾覆盖：通过背景编辑、遮挡模拟、光照扰动，覆盖 99% 典型长尾交互场景

技术实现：

● 利用 3DGS 的高保真渲染能力，实现照片级真实的场景重建

● 支持实时视角切换和动态光照调整

● 可编程的物理属性标注，为每个场景元素赋予质量、摩擦系数等物理参数

架构定位：它不是数据增强工具，而是具身智能的”数据原生引擎”，主动创造比现实更丰富、更可控、更物理一致的训练宇宙。

2.2 ABot-PhysWorld：可微分推演引擎，解决”物理失真”

基于 14B 参数的 Diffusion Transformer 主干，在 300 万条真实操作视频上训练，提出”物理优先”的建模范式。

核心能力：

● 动作条件化推演：给定末端执行器位姿与夹爪状态，精确预测未来时空动力学变化

● 因果链建模：支持”指令→状态变化→结果反馈”的 VLA 闭环

● 可微分物理状态输出：每一帧不仅输出像素，还隐含质量、接触力场、惯性张量等物理属性

技术实现：

● 基于 Wan2.1-I2V-14B 主干网络进行全量微调

● 采用 LoRA 低秩适配技术进行高效参数优化

● 并行上下文块实现动作条件的空间注入

架构定位：它不是视频生成器，而是机器人的”物理思维引擎”，能回答”如果这样做，会发生什么？”

2.3 双引擎协同机制

流程类型	数据流向	价值
数据流	ABot-3DGS 生成亿级高保真仿真数据 → 输入 ABot-PhysWorld 进行物理对齐训练	从”数据制造”到”物理推演”的无缝衔接
控制流	用户输入指令 → ABot-PhysWorld 推演动作轨迹 → 输出物理合规视频 → 反馈至真实机器人执行	支持实时决策与规划
进化流	真实执行误差 → 回传至 ABot-PhysWorld → 更新模型参数 → 下一轮预测更精准	自生长、自修正、自适应

这是一个自生长、自修正、自适应的具身智能操作系统，每一次执行，都在为世界模型注入新的物理认知。

三、ABot-PhysWorld：面向机器人操作任务的物理对齐世界模型

维度	创新点
数据	结构化采样 + 物理语义标注 → 构建因果理解基础
架构	冻结主干+LoRA+动作注入 → 零样本控制+低显存占用
训练	解耦判别+Diffusion-DPO → 学会物理规律判别

核心能力：基于140亿参数Diffusion Transformer主干架构，通过系统性数据治理 + 物理约束注入 + 闭环评估机制三位一体设计，实现物理一致性、动作可控性、零样本泛化能力的有机统一。

3.1 数据构建：结构化采样 × 物理语义标注

数据来源与规模：整合五大主流开源数据集（AgiBot、RoboCoin、RoboMind、Galaxea、OXE），涵盖多形态机器人与长尾任务场景，累计汇聚近 300万条真实操作视频片段，为模型提供丰富的具身交互信号基础。

1、四层分层采样策略：保证多样性与平衡性

层级	目标	实现方式
第一层：内部多样性保留	防止稀有交互模式丢失	保留OXE等聚合数据集中小型子集
第二层：跨机器人重平衡	增强跨平台泛化	对欠代表机器人类型上权重
第三层：任务感知配额分配	抑制头部任务主导	头部任务≤15%，中部任务40–50%，长尾任务全量保留
第四层：宏观规模调控	平衡数据集体量差异	AgiBot/OXE降采样；RoboMind保证最低覆盖率，三轮补充改善长尾

2、物理感知标注系：双阶段+四层级语义结构

采用 VLM + LLM 双阶段协同标注，将每段视频转化为结构化物理语义描述，分为四个层级：

● 宏观层（意图）：自然语言描述整体任务目标，如：“抓取并放置苹果”。

● 中观层（动作序列）：动词-名词短语序列，如：“接近 → 抓握 → 提起 → 移动 → 释放”。

● 微观层（轨迹细节）：记录笛卡尔轨迹、相对运动、夹爪状态，如：“末端沿Z轴下降5cm，夹爪闭合至20mm”。

● 场景层（物理关系）：描述接触、支撑、包含关系及任务结果，如：“苹果与桌面接触，被夹爪稳固抓握，成功放置于袋中”。

3、四级叙事结构：构建因果理解基础

标注流程按四级叙事推进：场景构建 → 动作流程 →最终状态确认 → 镜头总结

不仅回答“发生了什么”，更解释“为什么发生”，为世界模型训练奠定因果推理与物理规律理解的语义基础。

3.2 模型架构：物理对齐的工程实现路径

ABot-PhysWorld 的核心是确保生成结果在动力学上合理、在控制上可响应、在训练上可持续。该模型基于 DiT 主干构建，但在训练策略与结构设计上做了关键调整，使其能够内化物理规律并支持动作条件化推演。整个训练分为两个阶段：

● 第一阶段：监督微调。模型学习从当前视觉状态与语言指令出发，预测未来若干帧的演化，建立基础的时序建模能力。

● 第二阶段：偏好优化机制。在冻结主干的前提下，通过轻量级适配器对模型进行定向调整。这一阶段不再依赖像素相似度，而是以“物理合理性”作为优化信号——模型生成多个候选视频，由辅助评估模块判断其是否符合物理常识（如接触是否存在、运动是否受重力影响等），并据此强化合规行为、抑制违规输出。这使模型逐步学会区分“看起来像”和“物理上对”，从而提升在真实任务中的可靠性。

架构上的关键技术支撑体现在两方面：

● 基于 LoRA 的轻量化参数适配机制。在保持主干网络完整性的前提下，仅对部分潜空间参数进行微调，显著降低训练成本与显存占用，同时避免破坏预训练获得的通用视觉先验。这种设计使得模型既能吸收大规模数据中的语义知识，又能专注优化与物理建模相关的局部能力。

● 并行上下文注入机制。模型支持将末端执行器位姿与夹爪状态作为显式输入，通过空间编码方式嵌入到生成过程中。这种机制并非简单叠加特征，而是在Transformer结构中并行引入动作上下文，使每一帧的生成都受到当前控制意图的影响，从而实现“指令即因果”的可控推演。该设计天然支持多形态机器人控制，无需针对不同本体重新训练，具备良好的零样本泛化能力。

ABot-PhysWorld 的架构设计在保证主干模型泛化能力的前提下，通过轻量适配与条件注入机制，实现物理一致性、动作可控性与训练效率的协同优化。其目标是解决机器人世界模型的关键约束：输出需符合物理规律、响应需匹配控制指令、训练需控制资源开销。

3.3 训练方法：解耦判别 + Diffusion-DPO

传统世界模型采用最大似然估计（MLE）进行训练，其优化目标为最小化生成帧与真实帧之间的像素级差异。该方式在通用视频生成任务中有效，但在机器人操作场景中存在结构性缺陷：它无法区分物理合规与物理违规样本。例如，物体穿透、无接触抓取、反重力运动等行为，只要像素分布接近真实数据，仍可能被模型视为合法输出。这导致生成结果在视觉上合理，但在动力学上不可执行，限制其在真实机器人系统中的可用性。

ABot-PhysWorld 的训练方法引入物理判别机制，将优化目标从“像素相似度”转向“物理一致性”。具体实现路径为：在冻结主干网络的前提下，通过结构化评估体系对候选输出进行物理合规性评分，并基于此构建对比学习信号，驱动模型向更符合物理规律的方向演化。该机制包含两个核心组件：

● proposer module：负责根据初始状态与指令，动态构建该任务下的物理检查清单——即哪些行为是允许的、哪些是致命违规（如穿透、无接触抓取、反重力运动），哪些属于细微但关键的物理保真点（如接触力反馈、摩擦响应）。

● scorer module：对多个候选生成结果进行逐帧评估，不仅判断是否完成任务，更关注其过程是否符合物理常识，并输出结构化推理路径作为反馈信号。

分层物理检查清单

层级	类型	示例	权重
L1	致命违规	物体穿透、反重力	一票否决
L2	微物理保真	接触动力学、摩擦响应	区分合规样本
L3	负面问题强制占比	“红苹果是否变绿？”	30–50%，防捷径学习

训练过程采用扩散空间内的偏好优化（Diffusion-DPO），在潜空间层面对合规样本提升置信度，对违规样本降低置信度。该方法避免了传统MLE对所有误差平等对待的问题，使模型在训练过程中主动规避物理错误，而非被动模仿表面相似性。

为控制计算开销，整个训练在冻结主干网络的基础上进行，仅对轻量适配器模块进行参数更新。同时，在计算参考输出时采用临时关闭适配器的策略，避免维护完整副本，从而显著降低显存占用与计算成本。实测显示，该方案在14B参数规模下可节省60%以上显存，同时保持训练稳定性与收敛效率。

最终，ABot-PhysWorld 的输出视频在视觉上连续、在动力学上合理，支持末端执行器位姿与夹爪状态作为输入进行可控推演，具备跨形态、零样本、高精度的动作响应能力。其训练机制不是为了提升渲染质量，而是为了确保生成结果在物理层面可被机器人系统安全执行。

四、权威评测：全面 SOTA 性能

ABot-World 在主流评测基准中的 SOTA 表现

ABot-World 在多个公开且具有代表性的具身智能评测 Leaderboard 和 Benchmark 上完成系统性测试，覆盖物理合规性、动作可控性与零样本泛化能力三个关键维度。所有测试均基于标准协议，结果可复现，数据来源透明。

Challenge Leaderboard 和 Benchmark 说明：

WorldArena：由清华大学与CVPR联合发起，聚焦文本后 action 驱动下的物理合理性评估，尤其关注物体交互过程中的动力学一致性。
Agibot World Challenge：由智元机器人与ICRA共同发起，包含多步骤、长时序、高复杂度操作任务，用于评估模型在真实机器人场景中的因果推理与执行稳定性。
WorldScore：由李飞飞团队主导，综合评估视觉生成质量、语义对齐度与动作响应准确性，适用于多模态世界模型横向对比。
GigaBrain World Model Challenge：由 GigaAI 主办的 World Model 赛道，聚焦评测世界模型作为 VLA 评估器的能力。
PBench：由 CMU 等提出的面向物理感知与预测能力的统一评估框架，涵盖视频生成与条件视频生成等任务，采用任务对齐的量化指标，重点评估生成内容在物理合理性、运动连续性与因果推断上的表现。
EZSbench：由本团队构建的零样本评估基准，不依赖训练数据分布，用于衡量模型在未见过任务与机器人形态下的泛化能力。

在以上 Leaderboard 和 Benchmark 的测试中，主要与以下主流世界模型进行横向比较：Sora v2 Pro（OpenAI）、 Veo 3.1（Google）、Cosmos（NVIDIA）、GigaWorld（GigaAI）、UniFoLM（UniTree）。所有模型均在相同输入条件下运行，使用统一评估脚本与评分标准。

截至 2026 年 4 月 14 日，ABot-World 成为全场唯一在“物理合规性”、“动作可控性”与“零样本泛化”三大核心维度同时斩获 SOTA 的模型：它不仅在 EZSbench 上刷新历史纪录，更在 WorldArena 的纯文本控制任务中展现出卓越的物理合理性，并在 Agibot World Challenge 的复杂长程任务中证明了强大的因果推理能力。这一里程碑式的成就，标志着 ABot-World 已超越传统视频生成模型的范畴，真正具备了服务于真实机器人策略学习的工业级可靠性。

五、ABot-PhysWorld 与 VLA/WAM 的协同进化

5.1 ABot-PhysWorld 作为高质量训练数据生成器，驱动 VLA 策略预训练

ABot-PhysWorld 已深度接入 VLA 闭环体系，不再仅是被动执行平台，而是成为主动的数据引擎。它通过物理仿真环境，自主生成多样化、高保真的交互轨迹——包括成功动作序列、失败探索路径、边界状态等——这些轨迹直接用于 VLA 模型的策略预训练。

该过程无需依赖昂贵的人类演示，也避免了真实环境中高风险操作。每一次虚拟演练都为模型提供丰富的上下文样本，显著提升其在少样本条件下的泛化能力与鲁棒性，构建起可随任务扩展而持续生长的认知基座。

5.2 ABot-PhysWorld 输出语义奖励信号，支撑 VLA 的强化学习优化

在闭环中，ABot-PhysWorld 不仅生成数据，更承担“评估者”角色：它结合视觉语言模型（VLM），对当前执行轨迹与语言指令的语义一致性进行实时评分，输出连续值奖励信号（0~1）及任务完成终止信号。

这一机制解决了传统 RL 中“稀疏奖励+延迟终止”的痛点，使 VLA 能在每一步获得精准反馈，从而通过强化学习（如 PPO + LOOP）进行梯度优化。模型不再盲目试错，而是聚焦于语义目标达成的关键路径，大幅提升训练效率与最终成功率。

ABot-PhysWorld 不再只是执行者，而是 VLA 的“教练+裁判”——既提供高质量训练数据，又输出智能奖励信号，共同推动模型在闭环中持续进化。

5.3 World Action Model：ABot-Dream —— 物理世界的自主决策代理

更进一步，ABot-PhysWorld 自身可演化为一个世界动作模型（World Action Model, WAM），即 ABot-Dream—— 我们即将发布的下一代智能体架构。

ABot-Dream 不是另一个“机器人控制器”，而是“物理世界中的通用决策引擎”——它让机器不仅“能动”，更能“会想”、“会判断”、“会进化”。ABot-Dream 是一个融合了物理仿真、语义理解、动作规划与强化学习优化的端到端具身智能系统，其核心能力在于：

在环境中自主生成并执行复杂任务策略；
将策略无缝迁移至真实机器人平台（如机械臂、四足机器人、移动底盘等），具有强大的泛化能力；
通过闭环反馈机制持续自我优化，形成“预训练强泛化 → 真实部署 → 数据回流 → 模型升级”的正向循环。

简言之，ABot-Dream是 ABot-PhysWorld 的“高级形态”，是迈向通用具身智能的关键基础设施。

六、Coming Soon：实时可交互的 ABot-World

基于 ABot-PhysWorld 的架构基础，下一代 ABot-World 正在向支持实时响应、多模态融合与因果推演的方向演进，其核心能力升级体现在以下三个维度：

6.1 实时交互能力

系统响应模式从离线批量生成转向在线实时推演，支持毫秒级延迟响应机器人控制指令。
时序一致性由秒级批处理升级为帧级流式反馈，确保预测结果与执行动作在时间轴上严格对齐。
输入信号扩展至多模态融合，支持语言、视觉观测、力觉传感器等数据同步注入，构建贴近真实操作环境的闭环交互通道。

6.2 功能扩展方向

多视角生成：突破固定相机视角限制，支持任意空间角度的实时渲染与轨迹规划，提升复杂场景下的感知与决策能力。
因果与反事实推演：模型不仅能预测“下一步会发生什么”，还能模拟“如果改变某个动作或参数，结果会如何变化”，支撑策略优化与风险预判。
跨形态自适应控制：针对未见过的机器人本体（如双臂、足式、灵巧手），通过隐式动作编码机制自动适配控制策略，无需重新训练主干网络。

6.3 典型应用场景

在环策略优化：机器人在仿真环境中执行策略，世界模型实时反馈物理状态变化，驱动策略迭代，缩短从仿真到部署的周期。
人机协同界面：操作者可通过可视化预测视频辅助决策，在关键节点介入调整，提升人机协作效率。
自主技能迁移：模型在虚拟环境中自主探索长尾任务，积累经验并迁移到真实机器人，降低对人工演示的依赖。

来源：高德地图