LeCun的世界模型单GPU就能跑了
<p>速度快到离谱,完整规划仅需1秒</p> <p>LeCun世界模型最新进展,开源了一套极简训练方案,<b>单GPU就能跑</b>。</p>
这套方案叫LeWorldModel,它基于JEPA架构,实现像素输入直接预测未来,速度快到离谱,完整规划仅需1秒。

它能只看像素画面、不用复杂技巧、单GPU就能稳定训练,学会预测 “我做这个动作,世界会变成什么样”,用来帮机器人、智能体做规划和控制,又快又稳又好用。

实际效果也很不错:
- 速度飞起:规划速度比大模型方案快48倍,1秒内搞定。
- 参数很小:只有1500万参数,所有训练与规划实验均在单张NVIDIA L40S显卡上完成,几小时即可训完。
- 控制很强:在推箱子、机械臂、导航等 2D/3D 任务里,超过之前的端到端方法,和大模型方案打得有来有回。
- 懂物理: latent里藏着位置、角度等物理信息,还能识别 “不合物理” 的怪事(比如物体突然瞬移,它会觉得 “很意外”)。
技术架构:把JEPA简化到本质
团队介绍,以往的JEPA方法通过启发式方法或技巧(例如EMA、停止梯度法、预训练表示、掩码或复杂的损失函数)来避免模型崩溃。
然而,这些技巧使得JEPA训练不稳定且难以进行。
而LeWM的思路是把JEPA简化到本质:用编码器把图片变特征,用预测器根据动作猜下一个特征,再用高斯正则防止坍塌,全程端到端、极简稳定训练。
其架构只用到两个核心组件——编码器+预测器:
编码器:把画面压缩成一小串数字(latent特征)。
预测器:根据当前特征 + 你要做的动作,预测下一刻的特征。

最关键的创新在于,它只用了两个损失:
预测损失:让预测器尽量猜对下一帧的真实特征,用简单的MSE均方误差。作用是让模型学会世界的动态规律。
SIGReg正则损失:强制让所有特征向量服从标准高斯分布。作用是防止模型 “摆烂坍塌”(所有画面输出一样的特征)。
所以最终的总损失 = 预测损失 + λ × SIGReg正则损失。

正则化权重 λ是唯一需要调优的超参数,极大简化了训练流程,完全不需要以往的额外方法,这也是LeWM稳定、好用的根本原因。
实验结果:完胜此前JEPA方法
先放结论:LeWM完胜之前的端到端JEPA 方法(PLDM),和依赖大模型预训练的DINO‑WM打成平手甚至更强,同时训练更简单、速度更快、参数更小。
团队在4个经典机器人/控制任务上进行测试,并与DINO-WM和PLDM这两种基于JEPA的最先进方法进行比较。
4个任务分别是Push-T(推箱子)、Reacher(机械臂够目标)、OGBench-Cube(3D 机械臂抓方块)、Two-Room(2D 导航)。

结果显示:
- Push-T(推箱子):LeWM最强,成功率96%,比PLDM高18%,甚至超过带体感输入的DINO-WM;
- Reacher(机械臂够目标):LeWM>PLDM,和DINO-WM接近;
- OGBench-Cube(3D机械臂抓方块):LeWM略输DINO-WM,但依然很强;
- Two-Room(2D导航):LeWM稍弱,但物理信息依然学得很好。

在2D和3D任务中,LeWM缩小了与基于基础模型的世界模型(例如 DINO-WM)之间的差距,同时优于端到端基线PLDM。
值得注意的是,LeWM的规划速度比DINO-WM快48倍:不到1秒vs约47秒。
原因是LeWM能把观测数据缩小约200倍,AI预测未来时算得更快、更省力,让基于特征的世界规划几乎可以实时运行。

此外,LeWM是真懂物理。
模型把画面变成一串数字(latent),团队在训练好的LeWM后面,接入一个简单的小探测器,让它只靠latent数字,去预测机器人/方块的位置、方块的角度、机械臂指尖坐标。
结果位置预测几乎100%准确,角度预测也非常准,比之前的PLDM强很多,和大模型DINO差不多。

为了直观展示LeWM的学习效果,团队还额外训练了一个用于可视化的小解码器,展示了三类画面:真实视频、模型 “看到”的还原视频、以及模型的未来预测视频。
可以看到,LeWM不仅能准确理解当前场景,还能正确预测物体接下来的运动,真正抓住了环境的核心结构与变化规律。
不仅如此,它还能识别 “违反物理规律” 的怪事。
团队做了个实验,故意制造两种 “扰动场景”,看模型会不会觉得不对劲:
- 视觉扰动:物体突然变色;
- 物理扰动:物体直接瞬移到随机位置,违背物理定律。
模型面对“变色”的反应是平平无奇,而面对“物理违规”,惊讶值直接爆表。

团队背景
一作Lucas Maes,Mila的三年级博士生,导师是Damien Scieur。
目前在布朗大学担任访问研究员,与Randall Balestriero合作研究世界模型。

其工作重点是通过各种方法改进JEPA ,包括基于梯度的规划、分层时间抽象、目标规范和物理理解。
Quentin Le Lidec,纽约大学柯朗数学研究所的博士后研究员,与Yann LeCun合作研究机器人世界模型。
目前的研究重点是利用人工智能解决物理世界中的问题,曾为Pinocchio、 Simple和stable-worldmodel等开源项目做出贡献。

Damien Scieur,现任三星研究员,曾任普林斯顿大学博士后,主要方向是优化算法。

Randall Balestriero,布朗大学计算机科学助理教授,长期深耕人工智能与深度学习领域。

2013年起研究可学习信号处理,他参与的技术曾用于NASA火星车火星地震探测。
2021年获莱斯大学博士学位,后进入Meta AI做博士后,师从Yann LeCun。
项目主页:https://le-wm.github.io/
github地址:https://github.com/lucas-maes/le-wm
论文地址:https://arxiv.org/pdf/2603.19312v1
版权所有,未经授权不得以任何形式转载及使用,违者必究。
Related Articles
Mark Zuckerberg is reportedly building an AI clone to replace him in meetings
Skip to main contentThe AI version of Zuckerberg is trained on his mannerisms, tone, and public statements, according to a report from the Financial Times.The AI version of Zuckerberg is trained on his...
今年最火的AI产品,不止龙虾|榜单申报中
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-04-13 ...
Sam Altman reportedly targeted in second attack
Jess Weatherbed is a news writer focused on creative industries, computing, and internet culture. Jess started her career at TechRadar, covering news and hardware reviews.Sam Altman was seemingly targeted by...
入职Meta的吴翼,清华叉院官网已撤其教职信息
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-04-13 ...