国产玩家亮剑世界模型！把全模态卷到顶后，天工AI不藏了

        <p>“已迈入AI原生的平台经济时代”</p>                			<p>人人都在卷多模态，可多模态之后呢？</p>

直到今天，终于有人给出了清晰答案——而且是刚刚把多模态卷到全球第一梯队的国产玩家。

不是更强的模型，而是平台。

更关键的是，这个判断并非来自一次普通发布，而是出现在中关村论坛这一国家级科技创新平台之上。

天工AI董事长兼CEO周亚辉在《世界模型前沿技术与天工AIGC全家桶大模型生态》发布会上分享：

过去三年，第一次跃迁已经完成。从移动互联网的流量经济，进入了大模型工具时代。

而现在，第二次跃迁正在发生。从大模型工具时代，迈向AI平台经济，也就是AI原生的平台经济时代。

在这个新时代里，模型是引擎，平台是工厂，创意创作者是老板，三者合为一体，让每个人都能充分释放创造力。

当“平台”二字一出，台下的我们此刻终于明白天工AI之前那些看似费解的动作：

为什么死磕原生多模态？为什么在视频、音乐、游戏等领域四面出击？为什么模型更新节奏飞起？

答案其实很简单。

因为自打选择All in AGI和AIGC开始，这条路将会经历什么、以及终点何在就已经写好了——

不是单纯做一个更强的模型，而是搭一套完整的AI平台。

从天工AI以往的实践来看，这个平台包含内外两层。内层是从技术→模型→应用的完整闭环；外层则是这个闭环吸引开发者、创作者和合作伙伴不断加入后，由平台演化而成的生态。

所以，当天工AI如今又摆出2026 AGI战略和三大模型“全家桶”时，一切就都说得通了。

天工AIGC“全家桶”来了

说回此次发布会。

这一次，天工AI直接一口气发布了三款模型——不仅量大管饱，而且每一个都位居各自赛道的全球第一梯队。

AI游戏世界模型Matrix-Game 3.0
AI视频大模型SkyReels V4
AI音乐大模型Mureka V9

当这几个模型同台亮相时，我们这才意识到：

原来它们此前并非孤立推进，而是在逐步拼出一个“可理解、可生成、可交互”的世界模型雏形。

游戏世界模型率先把能力放进可交互场景中跑起来，视频与音乐则在此基础上不断补齐世界的理解与表达维度，三个模型互相配合、彼此反哺，在应用中不断迭代完善。

然后只要等到每个模型足够强大、这套闭环真正跑通时，天工AI的世界模型，也就不再遥远了。

至于当下天工AI离世界模型还有多远，不妨一起看看这次发布的三款模型。

游戏模型Matrix-Game 3.0

对于游戏世界模型，天工AI的思路很好懂——

既然世界模型主打“可交互”，那不如早早把模型丢进游戏这种实时交互环境里，让它一边生成一边学习。

而这，就是Matrix-Game系列模型正在做的。

到Matrix-Game 2.0，天工AI已经让实时交互这件事变成了现实，3.0则主要解决两个业界“老大难”：

长时序一致性（Memory）
高分辨率实时生成（Resolution + Real-Time）

过去很多世界模型，本质上仍未脱离“视频生成模型”的范畴——几秒十几秒OK，一旦拉长就开始“失忆”，出现场景变形、物体突然消失等“鬼畜”现象。

所以Matrix-Game 3.0决定给模型补上“记忆”。

生成当前帧时，它不光看最近几秒的画面，还会根据当前视角，从之前的长视频里找出相关的关键帧一起参考。

而且还会进一步通过几何信息看懂“同一个场景不同角度该咋对应”。

这样一来，哪怕过了一分钟，再回到同一个位置，生成出来的内容依然一致。

换言之，模型对世界的长期记忆能力，现在已经来到了分钟级。

视频地址：https://mp.weixin.qq.com/s/lNdMYYhM3bYHPvLD7Bkr1A

另外，世界模型由于主打“边交互边生成”，所以对实时性要求极高。

Matrix-Game 3.0目前交出的答卷是——在720P分辨率下，5B模型实现最高40FPS的实时生成。

这意味着模型不再只是一个离线生成工具，而是可以像游戏引擎一样运行起来：

用户按下键盘、移动视角，模型立刻给出反馈，整个世界随之变化。

而为了突破实时性瓶颈，天工AI用三招将原本“慢而复杂”的生成流程，压缩成一套可以实时运行的系统。

减少步数：大幅压缩推理步数，把生成速度拉上来；
提前适应：训练阶段就让模型模拟真实运行，一次生成多段内容，提前适应长时间运行时的误差累积；
边生成边纠偏：让模型在高速生成的同时，不断自我校正。

到这里，当模型同时解决了实时性与长时序问题后，世界模型才真正从“视频生成器”，变成了一个“可交互系统”。

当然，要做到这一步，靠的可不只是模型本身——背后是数据引擎、模型架构、推理部署三个层面的系统性升级。

昆仑万维首席科学家、香港中文大学教授成宇表示：

从技术趋势来看，世界模型的发展经历了几个关键跃迁：从video到world，从生成视频到生成可交互的环境；从offline到real time，从离线生成到实时交互；从短时记忆到分钟级长序列一致性；从学界可研究的模型到产品商业化。

而在Matrix-Game 3.0上，我们从数据、模型、推理三个层面，完成了关键跃迁——从可运动的交互demo，走向具备稳定性和工业级生成能力的世界模型系统。

视频模型SkyReels V4

再看视频模型SkyReels V4。

它的出现恰好回答了一个问题：为什么做世界模型，大多从视频模型开始？

背后的逻辑其实很直接——视频是世界模型最好的“训练场”。

相比静态图片，兼具时空维度的视频包含了物体运动、光影变化、因果关系等物理规律，这些正是世界模型需要理解的核心能力。

输出方面，视频模型练的是“预测下一帧”，世界模型则是“预测下一秒”，后者需要前者提供坚实支撑。因为只有先看懂世界如何运转，才能与之交互。按成宇的话来说就是：

世界模型的核心在于学习一个状态转移参数，给定当前状态和动作，预测下一个时刻的状态。与传统的生成模型不同，世界模型不光关注当前的生成结果，更关注动作建模与环境交互之间的因果关系。因此，它具备三个特征——动态性、可交互性和物理一致性。

那么，接下来的问题就只剩下：SkyReels V4已经走到哪里了？

答案上周已经揭晓——最最最前排。

在Artificial Analysis文转视频（含音频）全球榜，SkyReels V4超越Veo 3.1、Sora 2等国际主流模型，直接登顶。

而它能脱颖而出，关键就在于解决了AI视频生成的四大顽疾：音画不同步、可控性差、缺叙事逻辑、商用落地难。

音画不同步，那就甩出自研对称双流MMDiT架构，从底层就把音、视频焊在一起。

视频生成可控性差全靠“抽卡”，那就把全模态参考和各种增删改功能安排上。

把文本、图片、音视频统一到一个框架里之后，首尾帧、运动轨迹、多图参考便都能用上——给的信息越具体，结果就越可控。

如果还不满意，也不用重来，直接增删改继续调，最后拿到的就是一段可以直接用的视频。

当然，上面这些还只是基础。

真要落地短剧、影视、广告等场景，光“能生成”肯定不够——还得会“讲故事”。

为了提高视频模型的叙事能力，SkyReels V4引进了强化学习。

一边用全模态语义Reward模型去盯过程，告诉模型不要只看单帧好不好，还要看整段视频是否合理。

另一边用“阶梯式课程学习”的方式，让模型从分辨率与时长、任务复杂度、数据难度三个维度，由简入繁掌握复杂能力。比如先学拍5秒的静物，再学拍10秒的走路，最后才学拍15秒的复杂剧情。

结果就是，生成的视频不再是画面的简单拼接，而是有因果、有节奏、有表达的内容。

比如仅提供一段提示词+几张关键帧，SkyReels V4就能创作时下爆火的AI漫剧：

视频地址：https://mp.weixin.qq.com/s/lNdMYYhM3bYHPvLD7Bkr1A

最后则是一个很关键也很难的一点——商业化。

前面的能力再强，如果成本下不来、流程跑不通，落地依旧很难。

SkyReels V4的做法，是把复杂问题“收敛”到一个统一框架里：生成、编辑等任务不再分散，一套系统就能跑通全流程。

同时在效率上做针对性优化——低分辨率跑全局，高分辨率补关键，叠加稀疏注意力，计算成本压到原来的三分之一。

最终，SkyReels V4在保证1080P、32FPS、15秒成片质量的同时，也具备了规模化生产视频的可能。

目前，SkyReels V4已经在天工AI海外短剧平台DramaWave中落地验证，同时也通过API对外开放。

从“可生成”到“可生产”，SkyReels V4已经迈出关键一步。

音乐模型Mureka V9

最后是音乐模型Mureka V9。

一个完整的世界显然不止有画面，还得有声音、有旋律、有情绪——而这，正是天工AI打造音乐模型的原因。

回看天工AI音乐模型的迭代过程，不难发现Mureka V9已经达到了一个新的里程碑：

从“能写出来”升级为“能按你想的方式写出来”。

玩过AI音乐的人都知道，现在的难点不是“AI能不能写”，而是写完能否让人眼前一亮，能不能写到人心坎里去。

很多时候，AI写的歌就是差那么点意思——歌词放不对地方，情绪推不上去，该唱重的地方唱轻了。

针对这种“表达偏差”，Mureka V9依托进一步优化的自研MusiCoT技术，在段落内文本控制、生成效率、混音质量与整体听感上进行了全方位打磨。

所以现在，模型不再只是按照提示词“生成一段音乐”，而是以更接近真实创作逻辑的方式，理解“这一段该唱什么、怎么唱、为什么要这样推进”。

这里也浅浅放一个demo，让大家感受下Mureka V9的实力——来一首含中英法西四种语言的夏日慵懒曲。

音频地址：https://mp.weixin.qq.com/s/lNdMYYhM3bYHPvLD7Bkr1A

各位听完感受如何？

虽然目前Mureka V9的第三方跑分还没出来，但就在这两天，Mureka V8已经登顶Artificial Analysis音乐模型榜了。

只能说，如果V8就已经打败了Suno V4.5、Udio v1.5 Allegro等国际主流模型，那V9就更不用多说了。

当然，Mureka V9的价值远不止“写歌”。

更重要的是，它让“好的AI音乐是一种音乐新品类”这件事，更加站得住了。

自Mureka V8起，天工AI就把“好的AI音乐”视为一种比肩爵士、乡村、说唱的音乐新品类。

这背后，不光有Mureka V8带来的那个“啊哈”时刻，更关键的是，供给侧和需求侧都在变。

一边是被彻底改写的供给侧。音乐创作不再是低频、高成本的少数人游戏，而是模型驱动下高频、可迭代、可版本化的日常生产。

另一边是被日渐激活的需求侧。当人们发现用AI能随时随地表达情绪、记录生活，那么音乐就从一种被动消费内容，变成了一种新的用来表达自我的语言。

于是天工AI相信，在供给与需求同时发生结构性变化的情况下，行业必然会出现新的平台形态，用以承载这种AI原生的内容形态、创作方式与用户行为。

正如Spotify在流行音乐时代所扮演的角色一样，AI音乐这一新音乐品类，也需要一个中心平台，来连接创作者、用户与分发生态。Mureka正是在这一判断下诞生的产品。

而从Mureka V8到V9，正值AI音乐从“模型效果探索期”进入“系统能力与工程化竞争期”的关键节点，天工AI用稳居全球第一梯队的实力把这个判断一步步做实了。

现在，当我们把三大模型的能力拼在一起时，天工AI关于世界模型的图景便逐渐清晰了：

Matrix-Game系列先把视觉与交互能力组织成一个可以实时运行的世界框架，SkyReels系列进一步承担对世界的理解与预测，Mureka系列则补齐表达与情绪维度。

在这个框架之上，声音、音乐等多模态能力还可以不断接入，最终走向一个更完整的可交互世界。

至此，一个可运行的世界模型雏形，已然出现。

原来天工AI下的是这样一盘棋

但问题是：这和我们开头讲的“平台”有啥关系？

很多人一看到三大模型齐发布，就会下意识以为，这不过是一次“模型的集中上新”。

但如果告诉你，这里的每一个模型都已跻身全球第一梯队，你是否会觉得事情开始变得不一样了。

没错，这正是天工AI在将多模态卷到顶之后的想法——让模型不再只是能力本身，而是变成可被组织、调度的平台资源。

至于怎么搭这个平台，天工AI董事长兼CEO周亚辉在发布会上将其总结为“3+1战略”，即三大场景大模型+天工超级智能体（Skywork Super Agents）。

我们正式发布昆仑万维2026年的AGI战略升级，即“3+1”生态架构。相比三年前，最大的变化在于收敛。

底层是四大SOTA大模型——视频、音乐、游戏世界模型，再加上面向Agent的Skywork 6.0，这是我们整个体系的引擎。

上层是三大AI原生平台经济体，通过SOTA模型驱动内容生产，再结合平台分发，形成端到端的闭环。

最后那个“1”，就是Skywork Super Agents。它是背后的通用操作系统，是面向未来5亿内容创作者的“一人公司操作系统”。

拆开来看，这套战略并不只是模型层面的能力组合，而是已经延伸到了具体的产品与平台形态：

游戏世界模型→新一代AI开放世界模拟游戏平台“猫森学园”；
视频模型→海外付费短剧平台DramaWave（“AI版Netflix”）；
音乐模型→AI音乐创作与分发平台Mureka（“AI版Spotify”）。

显然，天工AI是想搭建这样一套体系——

底层是多模态模型能力，中间是统一调度的智能体，上层则是面向开发者与行业的应用与生态。

也就是说，到了现在这个阶段，天工AI已经在思考模型之后的下一步了，即如何将其组合成一个真正可用的系统。

那么问题来了，对天工AI来说，为什么是现在呢？

模型实力肯定是一部分原因。

无论从行业出发，还是天工AI自己取得的成就，都在说明模型能力已经到了临界点。

换言之，多模态协同已经具备了基础。

但更深的变化，其实还是来自产业侧——过去AI更多是工具，但现在开始进入生产流程本身。

要理解这一点，在以《全模态内容革命：AI游戏、AI视频、AI音乐的创新、落地与生态共建》为主题的圆桌环节，几位嘉宾的切实分享便是最直接的印证。

QQ炫舞创始人姚勇（下图左三）观察到，AI正在逐个击破游戏开发的“新鲜、好看、好玩”三座大山，将过去“费钱费时间”的环节大幅压缩。

电子音乐人、多领域创作者朱婧汐（右二）则将AI视为“同时打开很多扇窗”的助手，能帮她从几十种可能性中快速选择创作方向。

以前需要和制作人在录音棚里一个一个试风格，耗时费力，而现在AI可以瞬间生成几十种可能性，甚至是“非常抽象、夸张、不可思议”的尝试。

导演周楠（右一）则指出，对普通人而言AI降低了创作门槛，对专业创作者而言，真正的挑战在于如何让AI理解电影的专业语言（比如镜头、剪辑、叙事）——而这正是他们正在攻克的“临门一脚”。

只能说，在最先接触到AI的这批玩家里，AI已经成了他们工作流中不可或缺的角色，只不过鉴于AI能力还有增长空间，所以一时还各有难题需要解决。

Anyway，这些产业一线人员的经历表明：

当AI从“辅助”走向“参与”，甚至开始“主导”部分生产环节时，单点能力已经不够用了。

于是提前洞察这一趋势的天工AI，早早就给出了全模态的解法。

为什么要做全模态？昆仑万维董事长兼CEO方汉举了一个非常生动形象的例子：

全模态之所以存在就是为了降低表达门槛，比如为什么要做视频，这是因为世上还有很多人不识字，如果只有文字那么这部分人就无法表达自我、“被看见”。所以，全模态就是我们为了让所有人表达自己，而必须要走的一条路。

而在天工AI实现全模态后，接下来真正决定上限的，是能否把这些能力组织起来，承载真实的生产与交互。

而这，正是天工AI选择在这个时间点提出“3+1战略”的深层原因。

从这个角度讲，这次发布的意义不只是模型更强了，而是天工AI已经开始着手搭建一个AI平台——

一个将单模态能力组织起来，形成可持续、可规模化内容生产的系统。

从多模态来，到平台生态去。

全球第一梯队，迎来“全能”国产玩家！

而在发布会之外，天工AI转向“平台”背后还释放了更直接的信号：

全球第一梯队，迎来了一位全能国产玩家。

怎么说呢？这就像给整个行业投入了一尾鲶鱼，让竞争焦点从单点能力转向体系化能力。

过去一段时间，AI行业的竞争大致分成两条路径：

一类玩家主要在单一模态上卷极致，比如大家熟悉的Midjourney、还未“消亡”前的Sora等，一听名字你就知道它们是干啥的。

另一类则开始尝试把单一模态的能力拼起来，朝着一个统一的系统或平台发力。由于要做的事情更多更复杂，所以业界普遍认为后者更难。

现实中，后者不仅考验模型能力本身，还要求在架构设计、工程能力、产品形态乃至生态构建上形成协同——

任一环节掉链子，整套体系都很难成立。

也正因如此，真正走到这一步的玩家，始终寥寥。

而天工AI作为后者之一，它走到“平台”这一步，并不是偶然。

自母公司昆仑万维2022年确立“All in AGI与AIGC”战略以来，天工AI已经构建起“模型+产品”的完整矩阵。

一张图总结如下：

如果说这张图展示的是能力布局，那么实际表现同样给出了验证——目前昆仑万维的海外服务覆盖全球100多个国家和地区，全球平均月活跃用户近4亿，海外收入占比达92%。

所以回过头看，天工AI其实早就在为“平台”铺路：

从原生多模态的持续投入，到视频、音乐、游戏等多个方向的同步推进，再到这次以“3+1战略”为核心的整体亮相，这条路径始终在向同一个目标收敛。

而且虽然前面一直在说多模态，但天工AI实际上已经做到了“全模态”。

有一说一，互联网发展至今，几乎所有公司都曾试图“做平台”，毕竟“一流公司做平台”的口号已经深入人心。

但最终能够真正跑出来的，始终只有少数几家。

绝大多数失败者，往往败于“先搭台、后唱戏”——平台是建起来了，却没有足够稀缺的能力来支撑。

而天工AI的路径恰恰相反，先拿下“全模态”这张硬牌，再向平台延伸。

因此，虽然天工AI能否成为幸运儿尚未可知，但至少，这第一步算是已经抢先迈出去了。

而且别的不说，能在中关村论坛开AI专场（拿下国家级平台背书与政府认可），本身便是实力的证明。

Matrix-Game 3.0开源地址：
主页：https://matrix-game-v3.github.io/
代码：https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3
模型：https://huggingface.co/Skywork/Matrix-Game-3.0

国产玩家亮剑世界模型！把全模态卷到顶后，天工AI不藏了

天工AIGC“全家桶”来了

游戏模型Matrix-Game 3.0

视频模型SkyReels V4

音乐模型Mureka V9

原来天工AI下的是这样一盘棋

全球第一梯队，迎来“全能”国产玩家！

Related Articles

逐际动力再融2亿美元提速港股IPO，张巍：营收对赌不符合具身商业逻辑

菲尔兹奖提前泄露！王虹邓煜双双在列

Siri AI is already changing how I use my iPhone

The 6 wildest claims in Apple’s lawsuit against OpenAI

天工AIGC“全家桶”来了

游戏模型Matrix-Game 3.0

视频模型SkyReels V4

音乐模型Mureka V9

原来天工AI下的是这样一盘棋

全球第一梯队，迎来“全能”国产玩家！

Related Articles

逐际动力再融2亿美元提速港股IPO，张巍：营收对赌不符合具身商业逻辑

菲尔兹奖提前泄露！王虹邓煜双双在列

Siri AI is already changing how I use my iPhone

The 6 wildest claims in Apple&#8217;s lawsuit against OpenAI

The 6 wildest claims in Apple’s lawsuit against OpenAI