DeepSeek阮翀加盟元戎首秀,详解基座VLA,研发提效10倍
<p>V4作者之一</p> <h2>一凡 发自 副驾寺</h2>
智能车参考 | 公众号 AI4Auto
前DeepSeek核心成员阮翀,加盟元戎后首次亮相了。

阮翀(chōng),本硕均毕业于北京大学,早年从事NLP研发,2023年加入DeepSeek,参与了DeepSeek VL、V3和R1等工作,是VL2的通讯作者,也是最新发布的V4的作者之一。
△图源:DeepSeek V4论文
如今他以新身份元戎首席科学家,现身北京车展,分享了元戎如何利用40B基座模型,评估模型表现,用模型迭代模型的过程。

这意味着AI不再是被训练出的结果,而是训练系统本身的组成部分。这也是AI领域当前的趋势。
比如,同样是在自动驾驶行业,小马智行最近发布世界模型2.0,就具备自我诊断能力,可以实现自我强化。
再比如,OpenAI今年在发布 GPT-5.3 Codex时透露,该模型的早期版本,加速了其自身的开发进度。
在数字世界和物理世界,AI都初步呈现出自我进化的趋势。而能同时深刻理解这两个领域的人才,非常稀缺,阮翀正是这样一位罕见的人才,从LLM转身自动驾驶,横跨两大领域。
阮翀详解基座模型,元戎研发提效10倍
据阮翀介绍,过去自动驾驶研发,会选择用很多小模型,专门解决不同的问题,这给开发和管理,带来了很多挑战。
所以,行业正在向统一基座模型收敛,用一个大模型,分化出多个不同版本,解决几乎所有问题。

其中元戎的基座模型,是一个40B参数规模的VLA(Vision-Language-Action Model),可以拆分成三个部分来看:
- 驾驶模型:AI司机,专门负责开车
- 分析模型:AI分析员,分析和解释AI司机为什么这么开
- 评估模型:AI教练,评估AI司机开车的表现

基座模型如何落地,加速元戎开发呢?阮翀举了三个例子。
第一个例子是数据表征任务。自动驾驶研发的关键,是实现数据闭环,但阮翀认为过去数据驱动的方式,其实带有滞后性:
你必须先训练出模型,才能发现模型的问题,进而知道哪些数据不够。
数据表征则改变了这个顺序,它可以提前分析数据,并进行归类,这样研发团队在训练前就知道,自己手头什么场景的数据多,又缺什么场景数据,在训练时就可以有所侧重,调整数据配比。
第二个例子是数据质量评估。过去分析数据质量,需要通过间接方式,根据这批数据,训出的模型表现,反推数据质量,迭代周期比较长。
现在基于一个庞大的基座模型,只需要进行简单的微调,就能评估数据质量。
最后,基座模型不仅在数据维度实现了提效,同时也加快了模型评估。过去评估模型能力,主要依赖路测,要先更新模型上车,再找人跟车,实测后回传数据,这种方式费时又费力。
现在利用云端虚拟环境,就能评估模型,判断AI司机开得好不好,并进行修正。

据阮翀估计,以前迭代一版模型可能需要100多个小时,现在加速了10倍,迭代时间缩短到了十几个小时。
在详解技术成果后,阮翀还参与了圆桌讨论,回应了外界最关心的问题:
为什么他会加盟元戎,转向物理AI?
以下是圆桌实录,经编辑
阮翀回应入局物理AI
Q:什么才是物理AI?
阮翀:从狭义的角度讲,物理AI一定要有一个现实载体,比如人能操纵它,然后现实世界会给出反馈,像机械手或者车。
但我认为物理AI最重要的事其实是闭环。
所以从广义的角度讲,比如说AI Coding,写了代码然后编译器会给出反馈,告诉你这个地方写了对不对,然后你再去调试。
只有这样的一个闭环,才是AI真正进入物理世界的最重要手段,能够让它不断提升。
Q:什么情况让你意识到了大模型的能力边界?
阮翀:我认为视觉模型现在最难的问题是空间方位感知,经常前后左右不分,然后导致一些奇奇怪怪的行为,比如分不清车门在左边还是右边,东西在车内和车外。
Q:哪些领域的突破性进展,值得大模型借鉴?
阮翀:我想强调的一个概念还是闭环。我觉得这个问题可以反过来看,就是如何把LLM推广到其他领域,比如用AI去预测化学分子性质,比如它的熔点或溶解度,然后用这项技术,加速药物研发。

Q:我们如何保证AI发展,是对人类有利的?
阮翀:我个人现在非常赞同Harness(约束AI边界的系统工程)的概念。人需要法律和规章制度,保证他成为一个好人。
对AI也是一样的,如果你坚信AI能超越人,那么你也需要一些工具来控制它,而不是期待它性本善。
Q:为什么近期不少LLM公司的多模态负责人,入局物理AI?
阮翀:对我来说,我觉得有两方面的原因:
第一,我自己不太喜欢做边际收益递减的事情。我觉得做LLM很多年了,当然它的能力在不断提升,但和ChatGPT刚出来时,感觉已经完全不一样了,有一种疲倦的感觉。
LLM发展非常好,比其他领域领先,一个模型几乎可以解决你想要的所有事。
但在别的领域,比如多模态或者具身智能,还没有发展到这样的阶段,我自己更愿意参与这样的阶段,而不是进入一个相对成熟的阶段。
第二,我自己性格的原因。我不喜欢跟别人抢着做事,比如LLM很好,那大家都一窝蜂去做,但我更在意某种使命感或者责任感:
一件事情,如果我去做和我不去做,对世界来说都没有差别,那我为什么要做?
所以,我选择换一个领域。
版权所有,未经授权不得以任何形式转载及使用,违者必究。
Related Articles
The future of AI regulation is courting the strangest, most anxious bedfellows
Hello and welcome to Regulator, a newsletter for Verge subscribers about tech politics, tech influence, and tech shenanigans in Washington, DC. (If you’re not a subscriber, you can get on board here.) We’re...
Google won’t just admit it’s feeding YouTube creators to its music AI
If you’ve uploaded a song to YouTube, Google almost certainly considers your video fair game for training its Lyria music AI, it just won’t admit it right now.A group of independent musicians is suing Google,...
Microsoft restricts Claude Fable for employees over data retention concerns
Tom Warren is a senior correspondent and author of Notepad, who has been covering all things Microsoft, PC, and tech for over 20 years.Anthropic released Claude Fable, its first Mythos-class AI model,...
Google will save your Lens photos, Search Live recordings, and Translate audio for AI training
Google is updating its Search-related privacy settings, as the company will now save your Lens photos, audio searches, Translate interactions, and Search Live recordings under a new “Search Services History” option.