美团盯上原生多模态！路子还很野：把图像语音都当成Token来预测

        <p>“离散视觉没有天花板”</p>                			<p>Token，这下真成了智能世界的基本单位。</p>

不是被定义出来的“词元”，而是被一套全新的统一Token架构，直接压进了现实建模的最底层。

过去一年，几乎所有头部大模型玩家，都在忙着重写多模态的底层架构。

从谷歌、OpenAI到国内的字节、MiniMax，大家在实践中逐渐形成共识——不走原生多模态，已经不够、不行了。

但问题是，原生多模态到底该怎么走？到目前为止，业界并没有一个统一答案。

直到这一次，一直闷头搞AI的美团LongCat，歘的一下亮出新解法：

把图片、语音，统统当成Token来预测。

听起来有点离谱，但他们不仅这么做了，而且——

还做成了。

真原生、真统一

先回答一个基本问题：为什么要做原生多模态？

理由虽然很多，但核心只有一个：

目前业界主流的多模态大模型，本质上采用的是一套“拼凑式架构”——语言模型当底座，视觉、语音当外挂。

这种架构下，理解靠连续特征对齐（比如要理解图片就得把图片转成语言能看懂的信号）、生成靠扩散模型，两套系统各说各话，根本谈不上真正的统一。

结果就是，中间“传话人”一多，算力消耗飙升，信息也一路跑偏、流失。

而原生多模态，则从一开始就用一套统一的方式，把所有模态一起建模——不需要拼接、不需要传话翻译，所有模态共用同一套“语言”。

而这，正是美团LongCat做的事。

至于为什么说他们采用的方式很“离谱”，原因在于，他们把“离散自回归”直接搬到了图像和语音这种连续信号上。

众所周知，依赖离散自回归建模，“预测下一个Token”让大语言模型一战成名。

但当这套范式被搬到视觉上时，问题也随之出现：

图片是连续信号，不能像文本那样天然离散，一旦强行切成Token（类似把一张图分成几块），模型就会丢信息“变弱”。

因此，行业长期认为，离散视觉建模存在“性能天花板”。

但随着美团LongCat一篇新论文的出现，这一认知被打破了——

文本、图像、语音，可以被统一压进同一个离散Token空间，用一套自回归逻辑从头建模，而且模型效果可以媲美主流顶尖模型。

从论文中可以看到，为这套理念提供支撑的，正是美团LongCat首创的离散原生自回归架构——DiNA（Discrete Native Autoregressive ）。

DiNA核心只做一件事——把文字、图像、语音都变成同一种东西，即离散Token。

这样一来，无论模型是读文字、看图片还是听声音，本质上都是在预测下一个Token。

听起来是不是仍有点抽象？不妨看看下面这张架构运行图。

简单来说，DiNA的一个完整“小周天”，大致会经历以下三个过程：

输入侧：文本、图像、语音各自经过自家Tokenizer，统一把原始信号转成离散Token；
中间：所有Token汇入一个不区分模态的学习器，它只处理Token序列，所有理解、推理、生成都在这里完成；
输出侧：处理完的Token再通过各自的De-Tokenizer还原成图像、音频、文本。

这种架构设计带来的好处显而易见：

以前都是各管各的（文字模型管文字、图片模型管图片），现在所有模态都共享同一个自回归骨干。

这意味着，甭管处理哪种模态，模型都用同一套参数、同一个注意力机制、同一个损失函数。

而这，无疑可以让模型在训练时更稳定，部署时更轻量。

训练时，多模态数据互相补充，梯度信号更稳，不容易跑偏；部署时，一个模型顶三个，显存省了，速度也快了。

空口无凭。

美团LongCat用LongCat-Flash-Lite MoE（总参数685亿，激活仅30亿）做基座，在这个框架上训练出LongCat-Next。

结果发现，DiNA的MoE路由在训练中逐渐学会了“分工”——不同专家开始偏好处理不同模态，激活的专家数量也比纯语言模型时更多，这说明模型正在用更大容量支撑能力扩展。

说白了就是，为了多干活，找了更多专家。

再一个，前面提到了理解和生成的割裂问题（需要两套系统）。

而在DiNA这里，它俩也变成了“预测下一个Token”这一件事——数学形式完全一样，只是输入输出互换。

看到图片，预测文字是“理解”；看到文字，预测图片是“生成”。理解和生成一个模型全搞定。

至于具体效果嘛？实验数据很能说明问题：

统一模型的理解损失仅比纯理解模型高0.006，而生成损失比纯生成模型低0.02。

这说明什么？理解不仅没拖累生成，反而表现出协同潜力。

以及最后还有很重要的一点，那就是真·原生。

以前的多模态模型，本质上天天干的是“对齐”的活儿——不同模态之间“对话”需要靠“翻译传话”。

而现在，美团LongCat发现：

把不同模态的Token丢进t-SNE可视化之后，它们不是各占一角，而是混在一起，自然交融，而且不同的专家模块开始自动偏好处理图像、文字或语音。

这说明，模型不是在“拼凑”多模态，而是在内部长出了一个统一的多模态世界。

说到这里，懂行的朋友可能就问了：

OK，现在我们已经知道DiNA架构长什么样、具体怎么运作的了，但这里还有一个关键问题没有被提到：

它是怎么把不同模态离散成Token的？文本不必多说，至少得说清图像和语音咋处理的。

而这，就要谈到美团LongCat的另一项自研了。

所以，怎么“离散”的？

一般来说，基于以下两点理由，离散建模一直被人说“不行”：

表征容量有限：离散Token就那么几个，怕装不下太多信息；
离散化损失：离散化过程会丢东西，比如一旦把连续信号切成块，细节就容易漏掉。

但美团LongCat就说了，这些还真不是关键。

真正决定上限的，是离散Token本身是否具备语义完备性（Semantic Completeness）。

换言之，问题不在“要不要离散”，而在离散后的Token本身到底够不够“有内容”——既懂大意，又抠细节。

所以现在问题就变成了：怎么构建合适的表征基础？

先说视觉。

对此，美团LongCat想了两招。

第一招：先把基础打好，让信息在被离散前尽可能丰富、准确。

他们拿出语义对齐编码器SAE（Semantic-and-Aligned Encoder），用来从图像中提炼高信息密度、多属性的特征。

不同于传统对比学习（如SigLIP那种“看文字和图片是否匹配”），SAE是通过大规模视觉-语言监督，像做阅读理解一样，把图像描述、视觉问答、视觉推理统统学一遍。

结果就是，它提取的特征既有“这是什么”的语义，又有“长什么样”的细节。

第二招：甩出自研视觉分词器dNaViT，把SAE提炼出来的特征，逐级量化成离散Token。

怎么个逐级量化？dNaViT这里采用的是8层残差向量量化（RVQ），通俗来讲就是“分层打包”。

既然细节很多，那就第一层打包轮廓、第二层打包颜色、第三层打包纹理……

每一层只负责上一层没包进去的“剩余信息”。

8层补下去之后，最后可以实现高达28倍的极致像素空间压缩。

光压缩还不算完，到了还原图像的时候，dNaViT还有一套双轨解码器来为还原质量“保驾护航”。

结构像素解码器：搭出低分辨率锚点图，保布局；
扩散像素细化器：注入高频纹理细节，让画面更完整清晰。

到这里，美团LongCat就完成了视觉离散的几个关键步骤——SAE“先看懂”、dNaViT再压缩和还原。

发现没，和语言模型的Tokenizer一样，dNaViT也把图像的理解和生成放在同一套Token序列里闭环流转了。

不过更关键的还在于，在LongCat-Next中：

视觉Token化这个过程完成的是图像到离散ID的映射，真正的特征是原生学习的。

意思是，视觉Token化这个过程只负责把图像转成ID编号，至于这个编号代表什么含义，是模型自己学出来的，不是别人硬塞给它的。

在美团LongCat看来，这种从“借用模态”到“内生模态”的转变，是原生多模态建模的核心。

还是举一个例子。

从dNaViT的架构图可以看到，虽然左边输入了三张尺寸完全不同的图像，但经过中间的离散和右下边的还原后，输出的尺寸和输入完全一致，细节也没丢。

这就是“原生分辨率”的含义——无需任何额外动作（缩放、裁剪、填充），dNaViT可以实现任意分辨率的图像编码与解码。

再说语音。

语音的离散思路和视觉基本一致——

先用OpenAI的Whisper编码器提取声音特征，然后用RVQ切成离散Token，最后用解码器还原声音。

唯一比较狠的一点是，在文本引导音频的统一建模下，LongCat-Next同时支持并行生成与串行生成两种策略，使得模型可以在生成速度与语音准确性之间灵活权衡。

想“快”（如实时语音对话）：可以走并行生成，延迟更低；
想“准”（如后期配音）：可以走串行生成，虽然过程慢一点，但文本对音频的指导作用更强。

至于什么情况选哪个，也都是模型自己来决定。

通过随机延迟对齐——训练时随机切换“一起出”和“先后出”，模型能自己学会平衡速度和准确度，实现又快又准。

至此，美团LongCat在LongCat-Next身上看到了：

离散表示并非信息的退化形式，而可以成为统一理解与生成的完备表达载体。

通过“离散”这种方式，文字、图像、语音可以变成“同一种Token”——原生多模态的底层统一，由此实现。

跑分和背后的发现

具体效果可以看LongCat-Next的跑分情况。

这个基于LongCat-Flash-Lite（MoE）训练的模型，没有像传统模型那样给不同任务设计不同的专家模块，而是采用“与模态无关”的MoE——由模型自行决定如何为各模态分配训练资源。

结果大家也都看到了，凭借这套离散原生框架，LongCat-Next在视觉理解、图像生成、音频、智能体等多个维度上，都展现出与多模专用模型相当甚至领先的性能。

老实说，虽然LongCat-Next的成绩不错，但我还是有点怀疑“离散”是否真能work。

于是立马让模型识别一下桌面上的小白盒（反光下比较模糊）：

没想到LongCat-Next成功识别了耳机盒上的所有关键参数：

当然，如果细扒每一项成绩，你会发现背后还藏着这样几个关键点：

发现1：离散视觉没有天花板

前文也提到，行业长期认为离散模型在做细粒度文本识别时，天然就不如连续模型。

因为离散化本身就是一个信息压缩和丢失的过程，而细粒度文本识别恰恰对信息保真度要求极高。

但LongCat-Next这次用实力挑战了这一观点。

证据之一是，在OmniDocBench这个涵盖学术论文、财报、行政表格等各种复杂文档的多模态基准测试上，LongCat-Next的成绩不仅超越同类多模态模型，还超过了专门做视觉理解的模型。

更重要的是，美团LongCat通过对照实验发现，离散视觉的性能瓶颈并非来自“离散化本身”，而是来自数据规模。

在相同设置下对比离散模型（Discrete）和连续模型（Continuous）可以发现：

小数据下，离散模型确实弱于连续模型；但随着数据规模不断扩大，二者的性能差距会持续缩小。

继续扩大数据规模，离散模型甚至可以和连续模型性能接近一致（near-parity）。

照理说，如果离散化本身存在不可突破的性能上限，那么随着数据增加，这一差距理应在某个阶段停止收敛，但实验中并未观察到这一“收敛停滞”。

所以论文给出了一个判断——

离散建模并不存在内在性能天花板，其上限更多取决于数据规模与表征质量。

发现2：理解和生成可以协同

原理就不必多说了，咱直接亮成绩：

在考察长文本渲染能力的LongText-Bench上（侧重生成），LongCat-Next拿下93.15的高分。

与此同时，它还在考察数学推理能力的MathVista上（侧重理解），斩获83.1的领先成绩。

理解和生成齐高，这说明理解不仅没有损害生成，反而表现出协同潜力。

这也很好理解。以前它们分属两套系统，各有各的优化目标；现在却被拉到了一起，理解学到的东西直接服务生成，两者天然同向、越学越强。

发现3：经过原生多模态训练后，不会折损文本能力

以前多模态训练就像“端水”，要小心翼翼在各种模态的能力之间取得平衡。

但LongCat-Next就不一样了。

图像、音频能力配上后，文本能力也没被削弱——

在纯文本任务上，LongCat-Next在MMLU-Pro和C-Eval上分别斩获77.02和86.80的领先成绩。

而且工具调用、代码能力等个个不差。

还是那句话，当模型学会用同一种方式理解图像、声音和文字时，它对世界的理解无疑更上一层楼。

美团LongCat用实验初步证明：

当不同模态都用同一套离散Token体系后，模型不再需要为不同模态、不同任务分别设计机制，而是可以用一套可扩展的方式去建模整个世界。

在这个意义上，离散建模并非一种妥协，而是另一条可扩展路径。

这件事意味着什么？

不止于此。

把视角再往前推一步，你会发现一个有意思的“隔空呼应”：这项研究，几乎正对上了LeCun和谢赛宁等人的判断。

LeCun就不必多说了，谁都知道他一直批评“纯文本LLM无法实现AGI”；谢赛宁则在对谈张小珺时表示，语言本身是人类文明高度提炼的结构，相当于一种“捷径”或“拐杖”，过度依赖语言会限制AI对真实世界的学习。

而要突破语言模型的局限性，统一的多模态预训练，正是那条绕不开的路。

在近期公开的论文《Beyond Language Modeling: An Exploration of Multimodal Pretraining》中，LeCun等人决定不再把视觉当作辅助输入，而是推进统一的多模态预训练——

让视觉和语言一样，成为模型里的“first-class citizen”。

而美团LongCat这一步，正是把这条思路进一步推向工程化落地的体现——

在不推翻LLM、自回归这些成熟体系的前提下，他们直接把图像、语音、文字统统压进了Token序列，并且做到了工业级可用。

怎么个工业可用？答案是：开源。

没错，美团LongCat这次不仅公开了技术论文，而且还把LongCat-Next及其分词器开！源！了！

不过要想使用LongCat-Next，除了硬件上需要至少3张80GB显存的专业显卡（如英伟达A100/H100），软件配置要求如下：

到这一步，当一套方案不仅在论文里成立，而且已经以开源的形式跑通工程闭环时，它对业界的意义除了多了一个新框架外，更重要的其实还在于——验证了一条新路径。

细究之下，在通往“原生多模态”的这条路上：

有人在做融合，语言模型当底座，视觉、语音当外挂，一心想让不同模态更好协同；也有人更进一步做早期融合+MoE，不再依赖预训练编码器，从零开始联合训练，让模型内部自己长出视觉和听觉。

而美团LongCat更为直接——不走融合，不做对齐，直接把所有模态统统变成Token。

此时，模型面对的就不再是“多模态”，而是同一种可以被预测、被生成的序列。

某种程度上来说——

模态这个东西本身，也正在消失。

Paper: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub: https://github.com/meituan-longcat/LongCat-Next
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next
blog: https://longcat.chat/longcat-next/intro

美团盯上原生多模态！路子还很野：把图像语音都当成Token来预测

真原生、真统一

所以，怎么“离散”的？

跑分和背后的发现

发现1：离散视觉没有天花板

发现2：理解和生成可以协同

发现3：经过原生多模态训练后，不会折损文本能力

这件事意味着什么？

Related Articles

4nm！比亚迪自研AI芯片来了：制程对齐英伟达，算力拉爆特斯拉

Jony Ive’s funky Ferrari

This AI startup will clean your home for free to train future robots

光帆科技与腾讯出行服务达成战略合作开启新一轮预售

真原生、真统一

所以，怎么“离散”的？

跑分和背后的发现

发现1：离散视觉没有天花板

发现2：理解和生成可以协同

发现3：经过原生多模态训练后，不会折损文本能力

这件事意味着什么？

Related Articles

4nm！比亚迪自研AI芯片来了：制程对齐英伟达，算力拉爆特斯拉

Jony Ive’s funky Ferrari

This AI startup will clean your home for free to train future robots

光帆科技与腾讯出行服务达成战略合作 开启新一轮预售

光帆科技与腾讯出行服务达成战略合作开启新一轮预售