Momenta曹旭东:规模L4要百亿美元投入,现金流业务是物理AI门票
<p>“做好自动驾驶, 海量数据的作用只占10%”</p> <p>“自动驾驶,是物理AI的序章”。</p>
这是Momenta合伙人、CEO曹旭东的最新判断,翻过这个序章的代价是——
百亿级美金投入。
下一个阶段需要的投入更大。曹旭东认为,实现通用机器人,可能要上升到 几百亿甚至千亿美金。所以物理AI公司不能只靠融资活着,必须先有一个能产生现金流、能形成数据闭环和商业闭环的业务。
而在他看来,自动驾驶就是目前最先跑通这两个闭环的物理 AI 场景。
这也解释了,为什么这家成立十年的中国自动驾驶公司,今年在北京车展上,没有停留在讲“我们智驾做得怎么样”。
而是给出了三个更大的判断:
第一,原始数据不值钱,真正值钱的是把数据变成能力的体系。
曹旭东用了一个很形象的比喻:数据是“含矿量很低的铁矿石”。海量原始数据只是价值源头的10%,剩下90%,来自数据飞轮背后的体系能力。
第二,自动驾驶不是喂数据就行,还要做行为对齐。
Momenta现在已经有80万台量产车,海量真实路况数据会进入世界模型的预训练,让模型获得物理常识。
但有常识不代表会开车,还要通过后训练,把模型行为对齐到“好司机”。
第三,智驾产业不会长期百花齐放,而会快速收敛。
曹旭东判断,自动驾驶公司,国内最终可能只剩2-3家,而全球范围也就3-4家。
所以这场群访,表面上是在聊 Momenta 的世界模型、出海、L4、Robotaxi。
但真正的关键词其实只有一个:
收敛。
技术路线在收敛,商业模式在收敛,玩家格局也在收敛。

谈智能辅助驾驶:数据多不一定做得好,行业会收敛到3-4家
Q:数据闭环的最大瓶颈是数据量还是算法?还是车企的配合度?
曹旭东:数据这件事情,它不是单单的数据本身,你可以认为数据它就是矿石,而且是含矿量很低的铁矿石,所以你要把数据真的用起来的话,首先你要把这个贫矿变成富矿。
我举一个例子,我刚才分享到的,在高速上三只小狗排队横穿高速,这样的场景真的是万中无一、万里挑一,你怎么把这个数据给挑出来?它的难度本身就是一个大海捞针的难度,这已经有很高的门槛了,你怎么把贫矿变成富矿,再从富矿变成钢铁,钢铁又变成发动机,发动机最终又装到车上,这才是最终的价值,所以整个的数据飞轮的体系,它是一个体系能力,拥有原始数据,拥有海量的原始数据仅仅是一个价值源头的10%,剩下的90%是来自于这个体系的价值,这是第一个问题。
Q:现在有一种说法,数据不难,但是用好数据比较难,所以Momenta怎么去用好这些数据?
曹旭东:这是一个很好的问题。像我们的大模型,可能细节不能说太多,但是我可以分享一下我们可能会分为预训练的阶段和Post-Training的阶段,预训练的阶段,海量的来自于我们的量产车,我们现在已经80万台车了。海量量产的数据,而且量产的数据包括了大量的长尾数据,通过World Model Pre-Training来预训练这个模型。
预训练完这个模型之后有物理常识,但是有物理常识不代表它是一个好司机,因为大量的数据里面有好的驾驶行为,但是更多的是不好的驾驶行为,所以就有一点像数字AI里面大模型的训练一样,你通过海量的数据作为输入,它具备了这个世界的常识,但是不代表着它有好的行为,所以你还是需要Post-Training,通过Post-Training,把它的行为激发或者对齐到人类好的行为上去,大概会分为这两个环节。
Q:Momenta的世界模型最大的特点是什么?
曹旭东:更重要的不是单点算法,是架构能力,架构能力已经比单点算法能力更强了,因为一旦涉及到架构一定涉及到取舍,不是所有的创新都能放到同一个架构里面,涉及到架构的话就涉及到取舍,好的架构能够实现更好的积累和更好的合力,架构之上又包含了体系,这个体系包含了数据迭代的体系,包括了训练的体系,也包括了整个迭代的体系和验证的体系,体系之上更多的是组织和文化,就有一点像中国有一句古话,淮南为橘、淮北为枳。
我觉得根本上的企业之间的差距来自于组织和文化和对应的体系的建设,这是有更大的差距的。而具体的单点的算法的话,这个创新当然很重要了,每一代的算法架构的创新,实际上会带来大的进步,但是坦率来说,在中国的环境下,知识的流动和人才流动的速度其实是比较快的,仅仅是单点算法的话,并不存在特别大的壁垒或者差异性,有壁垒的是体系和组织的能力,所以你会发现,可能大家说的都是同样的单点算法的方向,但是最终做出来的效果可能有一代或者两代的差距,背后不是单点算法的差距,背后是体系和组织的差距。
Q:旭东总好,问一下智驾格局您怎么看?今年还会一直保持华为、Momenta和其他,还是有其他更强势的智驾供应商赶上来?还有就是您怎么看到2030年会不会迎来智驾的终局?
曹旭东:非常好的问题。因为整个智驾或者整个自动驾驶它有非常强的规模效应和先发优势,它的效应会比芯片行业更强,所以你回顾历史可以看到,这个芯片行业,不管是PC时代的芯片,实际上全球就只有两家,手机芯片的时代全球也就只有两家,高通和MTK。
自动驾驶,因为它是软件,它的边际成本是零,所以它的规模效应更强,它的规模效应除了成本上的规模效应,还有体验上提升的规模效应。
另一方面,面向主机厂有特别强的先发优势,因为主机厂很多业务都是敲门敲三年,从你见到客户到拿下合同是3年,如果是国际OEM的话,可能要敲门敲5-7年。
我拿奔驰举例子,就比如说我们和奔驰的合作,2017年奔驰就投资了我们,而且当时特别巧,运气也特别好,Ola Källenius(康林松),现在奔驰的董事长,他觉得这个公司特别有活力,选择投资我们,但是我们跟奔驰的第一个量产项目上市是2025年的后半年,经历了整整8年的时间,其实已经加速了。
我当时问了一个清华的师兄,那个清华的师兄告诉我说,你们跟奔驰合作量产至少需要十年。我们中间2017年到2020年是POC,2020年到2022年是Pre SOP,2022年到2024年是小批量的量产开发,到了2024年才拿到了奔驰所有的电车和油车的业务,2025年底的时候才真正的量产。
所以举一个例子可以感受到,汽车行业敲门敲3年,国内的OEM敲门敲3年,海外的OEM敲门敲5-7年,到底是一个什么样的原因?因为这个行业有非常强的规模效应和非常强的先发优势,所以我还是维持我原来的判断,中国也就2-3家,全球也就3-4家,会非常快速地收敛。
谈商业化:中国速度和国际OEM的标准,存在冲突和矛盾
**Q:全球汽车产业流行反向合资,越来越多的海外车企看重了中国的科技巨头,您怎么看待这种新的趋势?
曹旭东:这是一个非常好的问题。因为中国的技术现在正在从中国走向世界,整个发展速度还是非常快的,进入海外的市场,比如说进入欧洲的市场,进入其他的一些市场的时候,给当地用户带来更领先的产品价值,但是另外一方面也会带来一些冲击,比如说冲击当地的公司、当地的就业或者是当地的税收等等。比较好的一个解决方案就是借鉴中国之前的模式,就是跟中国学习,来做反向合资,反向合资完之后,既让当地享受到了中国高科技的技术和产品很好的用户体验,另外一方面就相当于是中国的技术赋能当地企业,对当地企业带来更多的发展,带来更好的工作机会、更多的就业、更好的税收,是一个共赢的模式。
Q:今年车展上有哪些海外的客户和我们交流?
曹旭东:不光是今年,去年的时候我们就已经是全球品牌的共同选择了,在全球最顶尖的品牌里面,像德系的BBA、大众,日系的丰田、本田、日产,美系的通用、福特,都已经是我们量产的合作客户了。
Q:我们在和外资车企合作的过程中,有过哪些挑战?我们今年的出海目标是什么?
挑战的话,最常见的挑战,是中国的速度和国际OEM的标准,有时候是矛盾和冲突的,但是这个矛盾和冲突主要围绕着客户和用户,以客户和用户的价值为中心去共创,很多时候都能找到更好的创新性的方法,带来更好的结果。
Q:今年刚好是Momenta成立10周年,咱们创业之初也曾立下3个愿景,刚才在发布会上也看到用户的故事,也让人印象深刻,在此时此刻,在北京车展上,一路走来您有什么感悟想要和大家分享吗?
曹旭东:特别好的问题,我觉得还是蛮幸运,一路走来,最重要的还是跟志同道合的人去干真正喜欢的事情,真的会让你的人生生机勃勃,创业过程中有很多的困难和挑战,这些困难和挑战,每一年都会觉得,这一年可能是最难的,过了这一年明年可能会更好,但实际上不是。所以的话就是,如果你不享受发现问题、解决问题的过程,你不享受和你身边志同道合的人共同去探索、共同去面临困难和解决困难的过程,其实创业遇到的这些困难是很难坚持下去的。可能咬着牙坚持一年,咬着牙坚持两年,咬着牙坚持三年,很难坚持十年,所以你一定要找到志同道合的人去干喜欢的事情,去让自己的人生生机勃勃。
谈L4和物理AI:现金流业务是门票,要靠两个闭环双轮驱动
Q:曹总好,我想要请您分享一下,今年L4业务的进度如何?有没有什么规划?或者重要的关键节点?以及现在Robotaxi这个赛道的玩家越来越多,想要请您分享一下,Momenta做Robotaxi的优势。
曹旭东:非常好的问题,我们公司的L4并不是只做Robotaxi,我们既会做Robotaxi,也会做Robovan,就是物流。因为我们十年的愿景里面,十年物流和出行的效率翻倍,实际上物流是放在更前面的,出行放到后面,明年我们也会做Robotruck,虽然我们今年不会做,但是我们明年会做。
背后的底层逻辑是什么呢?还是回到今天提到的Jeff Hawkins那一本书里面,它讲到了一个核心概念就是一个神经网、一个大模型能够实现通用AI的能力,具体落地到自动驾驶这个领域的话,我们相信的是什么呢?我们相信的是一个自动驾驶的大模型能够实现所有的自动驾驶的垂直应用,并且做得更好。
而且这件事情我们已经在Robotaxi、Robovan和乘用车上成功的验证了,并且取得了很好的效果。这个带来的价值是什么呢?带来的价值就是你在每一个vertical的研发成本会大幅度的降低。而每个应用场景,每个垂直应用场景的经验和数据,又可以汇总和吸收到这个大模型里面,使得每个垂直领域做得更好,这实际上就是一个平台优势。
这个就有一点像十年前或者十几年前整个的互联网行业,有垂直电商,也有平台电商,但是最终胜出的都是平台电商,垂直电商可能现在都不存在了,很重要的原因就是这个平台效应带来的。我们的判断在自动驾驶在大模型领域也存在着很强的这样的平台效益,一个大模型能够实现所有的垂直领域,并且能够做得更好,这样每个垂直领域的成本更低,效果会更好。
Q:物理AI被英伟达的黄教主带火之后,很多公司都说是物理AI的公司,所以我想要问一下你觉得Momenta在全球范围内,物理AI方面,你们是一个什么样的位置?
曹旭东:首先我觉得物理AI是大势所趋,为什么呢?首先大家都知道数字AI有很大的优势,第一个就是数字AI的数据能够快速的呈规模的获得。
大家都知道Open AI很早的时候,有机器人、有数字AI,但是后来在聚焦的过程中,阶段性的放弃了机器人,选择了去做GPT,很重要的原因是机器的数据太难获得了。
而GPT需要的是互联网的数据,而互联网的数据本来就已经是非常大规模了。数字AI在过去几年实际上是突飞猛进,当然另一方面数字AI能够更加低成本、短周期的检验,因为它能够在数字世界上去互动,它的成本是更低的,周期是更短的,就比如说现在Agent要调用的话,只需要给一个接口。但是机器人要调用某一个工具的话,它要把机械手造出来,并且要抓取那个工具,并且来使用那个工具,那个难度和复杂度都会大非常多。
但是,我们所在的世界,既有数字的部分,又有物理的部分,而物理的部分可能是更大的一部分,所以当数字世界整个的发展取得了非常大的进展之后,自然而然的很多的成功的经验和方法就要进入物理世界,并且在物理世界中做创新,这也是为什么我觉得现在是物理AI的序章刚开始。
再回到我们公司,讲到物理AI,其实物理AI我觉得最核心的,一个是数据闭环,一个是商业闭环,而且这两者是互动的。我有一个经验,这个经验就是,任何一个人工智能的应用,一旦接近人类的水平,就会在很短的时间大幅超过人类的水平,这背后的逻辑是什么呢?
仅仅是我的一个观察,就比如说你看Alpha Go也好,或者过去的人脸识别也好,前面经过了一个非常漫长的爬坡期去接近人,接近人可能花了十年、二十年很长的时间,但是超越人,或者大幅地超越人,有可能就发生在1、2年,2、3年的时间,一开始有这个观察之后,我就在想背后的原因到底是什么?
后来就觉得最关键的还是数据闭环和商业闭环,而且这两者之间是正反馈的,因为先有了数据闭环,然后才有足够好的体验,这个足够好的体验一旦达到了接近人类的水平或者超过人类的水平的时候,就能够实现爆发式的商业化。而这个爆发式的商业化之后,又会带来数据爆发式的增长,而数据爆发式的增长又会带来模型能力进一步的爆发式增长,最终能够互相促进、互相激发,形成强烈的正反馈,而强烈的正反馈使得在很短的时间内就能够实现十倍、百倍甚至千倍人类的经历。
我们的判断就是自动驾驶进入到了这个阶段,机器人还需要一段时间,这是第一点。所以自动驾驶是物理AI的序章,因为它最先实现了规模的数据闭环和规模的商业闭环。
第二点就是,你看自动驾驶要实现规模化的L4,我的判断累计的投入至少是百亿美金,而且有可能还是创业公司的研发效率,如果你是大公司的话不只是百亿美金,可能需要几百亿美金。
但是机器人呢?通用的机器人它需要多少钱?我的判断可能是几百亿美金到千亿美金这个级别,有可能还是创业公司的研发效率。所以我的判断就是,物理AI它是需要有门票的,而这个门票就是你需要有现金流的业务,虽然现在整个中国具身智能的资本市场是非常活跃的,但是长期来看,要靠投资,要靠融资,追踪做成通用的物理AI,或者物理世界的AGI是不现实的,而是一定要有现金流业务,而这个现金流业务可以是自动驾驶,也可以是物理AI某一个方向,虽然我现在没有想到,其他的某一个方向能够更早地实现规模化的数据闭环和商业闭环,或者其他来自于数字AI的现金流业务。无论如何一定要有一个现金流业务来支持物理AI的研发。
版权所有,未经授权不得以任何形式转载及使用,违者必究。
Related Articles
Claude Fable won’t answer basic biology questions
Anthropic just released Claude Fable 5, calling it the most powerful AI model it has ever made widely available and praising its skills in biology, among others. But the model won’t answer basic biology...
Microsoft, like, totally gets why students are booing AI-pilled graduation speakers
New college graduates around the country have been booing and heckling commencement speakers who hype up AI. Microsoft would like everyone to talk it out.In a blog post running more than 3,100 words,...
The future of AI regulation is courting the strangest, most anxious bedfellows
Hello and welcome to Regulator, a newsletter for Verge subscribers about tech politics, tech influence, and tech shenanigans in Washington, DC. (If you’re not a subscriber, you can get on board here.) We’re...
Google won’t just admit it’s feeding YouTube creators to its music AI
If you’ve uploaded a song to YouTube, Google almost certainly considers your video fair game for training its Lyria music AI, it just won’t admit it right now.A group of independent musicians is suing Google,...