Momenta不选VLA选世界模型,大众首发!曹旭东:传感器重要性最后
<p>“VLA好钢没用在刀刃上”</p> <h2>一凡 发自 副驾寺</h2>
智能车参考 | 公众号 AI4Auto
Momenta,也押注世界模型了。
就在刚刚,Momenta剧透下一代飞轮大模型R7,将世界模型引入强化学习,让AI看懂物理世界,理解物理规律。
据说引入世界模型后,R7性能暴涨,表现惊艳,以至于上汽大众总经理陶海龙亲测R7后,直接给曹旭东打电话:
必须我们首发。
上汽大众争取首发R7的产品,名为ID.ERA 9X。这是上汽大众的最新旗舰,一款车长超5.2米的全尺寸增程SUV,集成了德系机械素质和中国AI技术。

Momenta押注世界模型,剧透下一代R7大模型
在剧透世界模型前,Momenta CEO曹旭东首先介绍了行业过去的技术瓶颈。曹旭东表示,业内此前普遍采用模仿学习范式,这种范式通过模仿人类老司机轨迹来提升模型性能,无法超越人类老司机的驾驶水平。这就像咱们在学校里亦步亦趋地跟着老师学习,当然很难超越老师。
为了打破技术瓶颈,让AI司机有希望超越人类司机,Momenta转向了强化学习,Momenta认为强化学习大模型有希望超越人,甚至大幅超越人,在去年推出了基于强化学习的一段式端到端大模型R6。
R6能够在开放的环境中自主探索试错,不再只是简单地模仿人类轨迹,而是从综合安全、舒适和效率等多个维度考虑,从多个可能轨迹中筛选出最好的那条。
R6代表着Momenta过去的技术探索,面向未来Momenta押注了世界模型,即将推出R7强化学习世界模型。
这里简单解释一下,关于世界模型的定义有很多种,目前大体可以分为两类:
一类是生成世界模型,一般作为自动驾驶和具身智能的“云端训练场”,训练端侧算法。自动驾驶行业目前基本对这条路线形成了共识,只有个别玩家还在坚持真实数据为王。
另一类是表征世界模型,代表着车端真正驱动车辆的AI算法,负责理解物理世界并进行推理。目前行业在这条路线和VLA之间存在争论,Momenta押注的正是这条路线,与Momenta同一阵营的还有蔚来和华为。

为什么Momenta在此时转向了世界模型?
曹旭东认为,物理AI时代已经到来,因此自动驾驶技术必须要拥有对于物理世界的认知能力,所以Momenta在强化学习的基础上,引入了世界模型,让AI能够基于更完整的物理世界信息,做出更符合物理世界的预测和规划。只有这样大模型才有机会真正地理解物理规律,理解运动之间的因果关系,以及物体之间交互的潜在可能。
那为什么Momenta不选VLA?
“VLA好钢没用刀刃上,传感器重要性排第三梯队”
在发布会后,曹旭东还对话了智能车参考等媒体,在群访中回答了很多问题,最值得关注的是两大路线之争。
第一大路线之争围绕VLA和世界模型之间展开。
曹旭东从直觉和技术两个角度,解释了为什么Momenta不选VLA。
首先从直觉上来说,曹旭东认为虽然LLM现在什么都能干,比如会写代码、写诗歌、解数学题,但这对开车来说帮助不大。类比人类司机,把车开好不需要一个人会写代码或者解数学题,只需要ta能理解物理世界的规律,在各种各样的场景及时做出反应,并做出安全的预判。
而只有世界模型才具有这样的能力,能够学习物理规律,并且可以通过强化学习收集到大量的长尾场景,反复锻炼“肌肉记忆”。
而从技术角度来看,曹旭东介绍称VLA的训练侧重点与自动驾驶的需求有偏差。VLA训练起源于LLM,底座模型的参数量一般在100B左右,然后再通过视觉和语言对齐,最后用行动去和视觉-语言组合对齐。这样看来在VLA的训练过程中,语义的优先级高于驾驶,很多参数也没用于驾驶任务,“好钢没用在刀刃上”。总结起来就是“VLA对自动驾驶是锦上添花,很难雪中送炭”。

VLA和世界模型,是软件算法层面的争议,而在底层硬件上,行业此前还一直存在着纯视觉和多传感器冗余(激光雷达)的争论,但这已经是过去时了。
曹旭东认为,传感器选型的重要性只能排在第三位。前两位是什么?
首先,Momenta最重视的是算法架构、数据和体系能力。
数据不必多说,这是AI迭代的基石。先说算法架构,曹旭东表示单一算法本身的壁垒很低,更重要的是架构,即把很多算法整合形成合力,并长期积累的能力。
再往上层是研发体系能力,要像神经网络一样可以反向传播,就是识别到用户高价值的任务,并将其传播给产品和研发团队。这样团队才能知道什么事情产出最高,在方案选型时选出提升用户体验最快的方案。
曹旭东透露,数据、架构和体系能力是Momenta内部第一梯队重要的事情,而紧随其后的是芯片算力。因为芯片算力直接决定模型能力上限。
在这些要素之后,排在第三梯队的是传感器。曹旭东认为哪怕只用纯视觉,即传感器都用摄像头,相比人类双眼已经是“超配”了。因为人的双眼并不是360°环视的,摄像头的覆盖程度已经非常全面,有足够的冗余。
所以传感器当然是越多越好,但随着数据、算法架构和研发体系能力提升,堆传感器数量、堆激光雷达的边际效应会减弱。
“这已经逐渐成为行业共识了”。
版权所有,未经授权不得以任何形式转载及使用,违者必究。
Related Articles
Mark Zuckerberg is reportedly building an AI clone to replace him in meetings
Skip to main contentThe AI version of Zuckerberg is trained on his mannerisms, tone, and public statements, according to a report from the Financial Times.The AI version of Zuckerberg is trained on his...
今年最火的AI产品,不止龙虾|榜单申报中
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-04-13 ...
Sam Altman reportedly targeted in second attack
Jess Weatherbed is a news writer focused on creative industries, computing, and internet culture. Jess started her career at TechRadar, covering news and hardware reviews.Sam Altman was seemingly targeted by...
入职Meta的吴翼,清华叉院官网已撤其教职信息
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-04-13 ...