国产玩家亮剑世界模型!把全模态卷到顶后,天工AI不藏了
<p>“已迈入AI原生的平台经济时代”</p> <p>人人都在卷多模态,可多模态之后呢?</p>
直到今天,终于有人给出了清晰答案——而且是刚刚把多模态卷到全球第一梯队的国产玩家。
不是更强的模型,而是平台。
更关键的是,这个判断并非来自一次普通发布,而是出现在中关村论坛这一国家级科技创新平台之上。
天工AI董事长兼CEO周亚辉在《世界模型前沿技术与天工AIGC全家桶大模型生态》发布会上分享:
过去三年,第一次跃迁已经完成。从移动互联网的流量经济,进入了大模型工具时代。
而现在,第二次跃迁正在发生。从大模型工具时代,迈向AI平台经济,也就是AI原生的平台经济时代。
在这个新时代里,模型是引擎,平台是工厂,创意创作者是老板,三者合为一体,让每个人都能充分释放创造力。

当“平台”二字一出,台下的我们此刻终于明白天工AI之前那些看似费解的动作:
为什么死磕原生多模态?为什么在视频、音乐、游戏等领域四面出击?为什么模型更新节奏飞起?
答案其实很简单。
因为自打选择All in AGI和AIGC开始,这条路将会经历什么、以及终点何在就已经写好了——
不是单纯做一个更强的模型,而是搭一套完整的AI平台。
从天工AI以往的实践来看,这个平台包含内外两层。内层是从技术→模型→应用的完整闭环;外层则是这个闭环吸引开发者、创作者和合作伙伴不断加入后,由平台演化而成的生态。
所以,当天工AI如今又摆出2026 AGI战略和三大模型“全家桶”时,一切就都说得通了。
天工AIGC“全家桶”来了
说回此次发布会。
这一次,天工AI直接一口气发布了三款模型——不仅量大管饱,而且每一个都位居各自赛道的全球第一梯队。
- AI游戏世界模型Matrix-Game 3.0
- AI视频大模型SkyReels V4
- AI音乐大模型Mureka V9
当这几个模型同台亮相时,我们这才意识到:
原来它们此前并非孤立推进,而是在逐步拼出一个“可理解、可生成、可交互”的世界模型雏形。
游戏世界模型率先把能力放进可交互场景中跑起来,视频与音乐则在此基础上不断补齐世界的理解与表达维度,三个模型互相配合、彼此反哺,在应用中不断迭代完善。
然后只要等到每个模型足够强大、这套闭环真正跑通时,天工AI的世界模型,也就不再遥远了。

至于当下天工AI离世界模型还有多远,不妨一起看看这次发布的三款模型。
游戏模型Matrix-Game 3.0
对于游戏世界模型,天工AI的思路很好懂——
既然世界模型主打“可交互”,那不如早早把模型丢进游戏这种实时交互环境里,让它一边生成一边学习。
而这,就是Matrix-Game系列模型正在做的。
到Matrix-Game 2.0,天工AI已经让实时交互这件事变成了现实,3.0则主要解决两个业界“老大难”:
- 长时序一致性(Memory)
- 高分辨率实时生成(Resolution + Real-Time)

过去很多世界模型,本质上仍未脱离“视频生成模型”的范畴——几秒十几秒OK,一旦拉长就开始“失忆”,出现场景变形、物体突然消失等“鬼畜”现象。
所以Matrix-Game 3.0决定给模型补上“记忆”。
生成当前帧时,它不光看最近几秒的画面,还会根据当前视角,从之前的长视频里找出相关的关键帧一起参考。
而且还会进一步通过几何信息看懂“同一个场景不同角度该咋对应”。
这样一来,哪怕过了一分钟,再回到同一个位置,生成出来的内容依然一致。
换言之,模型对世界的长期记忆能力,现在已经来到了分钟级。

视频地址:https://mp.weixin.qq.com/s/lNdMYYhM3bYHPvLD7Bkr1A
另外,世界模型由于主打“边交互边生成”,所以对实时性要求极高。
Matrix-Game 3.0目前交出的答卷是——在720P分辨率下,5B模型实现最高40FPS的实时生成。
这意味着模型不再只是一个离线生成工具,而是可以像游戏引擎一样运行起来:
用户按下键盘、移动视角,模型立刻给出反馈,整个世界随之变化。
而为了突破实时性瓶颈,天工AI用三招将原本“慢而复杂”的生成流程,压缩成一套可以实时运行的系统。
- 减少步数:大幅压缩推理步数,把生成速度拉上来;
- 提前适应:训练阶段就让模型模拟真实运行,一次生成多段内容,提前适应长时间运行时的误差累积;
- 边生成边纠偏:让模型在高速生成的同时,不断自我校正。
到这里,当模型同时解决了实时性与长时序问题后,世界模型才真正从“视频生成器”,变成了一个“可交互系统”。
当然,要做到这一步,靠的可不只是模型本身——背后是数据引擎、模型架构、推理部署三个层面的系统性升级。

昆仑万维首席科学家、香港中文大学教授成宇表示:
从技术趋势来看,世界模型的发展经历了几个关键跃迁:从video到world,从生成视频到生成可交互的环境;从offline到real time,从离线生成到实时交互;从短时记忆到分钟级长序列一致性;从学界可研究的模型到产品商业化。
而在Matrix-Game 3.0上,我们从数据、模型、推理三个层面,完成了关键跃迁——从可运动的交互demo,走向具备稳定性和工业级生成能力的世界模型系统。

视频模型SkyReels V4
再看视频模型SkyReels V4。
它的出现恰好回答了一个问题:为什么做世界模型,大多从视频模型开始?
背后的逻辑其实很直接——视频是世界模型最好的“训练场”。
相比静态图片,兼具时空维度的视频包含了物体运动、光影变化、因果关系等物理规律,这些正是世界模型需要理解的核心能力。
输出方面,视频模型练的是“预测下一帧”,世界模型则是“预测下一秒”,后者需要前者提供坚实支撑。因为只有先看懂世界如何运转,才能与之交互。按成宇的话来说就是:
世界模型的核心在于学习一个状态转移参数,给定当前状态和动作,预测下一个时刻的状态。与传统的生成模型不同,世界模型不光关注当前的生成结果,更关注动作建模与环境交互之间的因果关系。因此,它具备三个特征——动态性、可交互性和物理一致性。

那么,接下来的问题就只剩下:SkyReels V4已经走到哪里了?
答案上周已经揭晓——最最最前排。
在Artificial Analysis文转视频(含音频)全球榜,SkyReels V4超越Veo 3.1、Sora 2等国际主流模型,直接登顶。
而它能脱颖而出,关键就在于解决了AI视频生成的四大顽疾:音画不同步、可控性差、缺叙事逻辑、商用落地难。
音画不同步,那就甩出自研对称双流MMDiT架构,从底层就把音、视频焊在一起。
视频生成可控性差全靠“抽卡”,那就把全模态参考和各种增删改功能安排上。
把文本、图片、音视频统一到一个框架里之后,首尾帧、运动轨迹、多图参考便都能用上——给的信息越具体,结果就越可控。
如果还不满意,也不用重来,直接增删改继续调,最后拿到的就是一段可以直接用的视频。

当然,上面这些还只是基础。
真要落地短剧、影视、广告等场景,光“能生成”肯定不够——还得会“讲故事”。
为了提高视频模型的叙事能力,SkyReels V4引进了强化学习。
一边用全模态语义Reward模型去盯过程,告诉模型不要只看单帧好不好,还要看整段视频是否合理。
另一边用“阶梯式课程学习”的方式,让模型从分辨率与时长、任务复杂度、数据难度三个维度,由简入繁掌握复杂能力。比如先学拍5秒的静物,再学拍10秒的走路,最后才学拍15秒的复杂剧情。
结果就是,生成的视频不再是画面的简单拼接,而是有因果、有节奏、有表达的内容。
比如仅提供一段提示词+几张关键帧,SkyReels V4就能创作时下爆火的AI漫剧:


视频地址:https://mp.weixin.qq.com/s/lNdMYYhM3bYHPvLD7Bkr1A
最后则是一个很关键也很难的一点——商业化。
前面的能力再强,如果成本下不来、流程跑不通,落地依旧很难。
SkyReels V4的做法,是把复杂问题“收敛”到一个统一框架里:生成、编辑等任务不再分散,一套系统就能跑通全流程。
同时在效率上做针对性优化——低分辨率跑全局,高分辨率补关键,叠加稀疏注意力,计算成本压到原来的三分之一。
最终,SkyReels V4在保证1080P、32FPS、15秒成片质量的同时,也具备了规模化生产视频的可能。

目前,SkyReels V4已经在天工AI海外短剧平台DramaWave中落地验证,同时也通过API对外开放。
从“可生成”到“可生产”,SkyReels V4已经迈出关键一步。
音乐模型Mureka V9
最后是音乐模型Mureka V9。
一个完整的世界显然不止有画面,还得有声音、有旋律、有情绪——而这,正是天工AI打造音乐模型的原因。
回看天工AI音乐模型的迭代过程,不难发现Mureka V9已经达到了一个新的里程碑:
从“能写出来”升级为“能按你想的方式写出来”。

玩过AI音乐的人都知道,现在的难点不是“AI能不能写”,而是写完能否让人眼前一亮,能不能写到人心坎里去。
很多时候,AI写的歌就是差那么点意思——歌词放不对地方,情绪推不上去,该唱重的地方唱轻了。
针对这种“表达偏差”,Mureka V9依托进一步优化的自研MusiCoT技术,在段落内文本控制、生成效率、混音质量与整体听感上进行了全方位打磨。
所以现在,模型不再只是按照提示词“生成一段音乐”,而是以更接近真实创作逻辑的方式,理解“这一段该唱什么、怎么唱、为什么要这样推进”。
这里也浅浅放一个demo,让大家感受下Mureka V9的实力——来一首含中英法西四种语言的夏日慵懒曲。
音频地址:https://mp.weixin.qq.com/s/lNdMYYhM3bYHPvLD7Bkr1A
各位听完感受如何?
虽然目前Mureka V9的第三方跑分还没出来,但就在这两天,Mureka V8已经登顶Artificial Analysis音乐模型榜了。

只能说,如果V8就已经打败了Suno V4.5、Udio v1.5 Allegro等国际主流模型,那V9就更不用多说了。

当然,Mureka V9的价值远不止“写歌”。
更重要的是,它让“好的AI音乐是一种音乐新品类”这件事,更加站得住了。
自Mureka V8起,天工AI就把“好的AI音乐”视为一种比肩爵士、乡村、说唱的音乐新品类。
这背后,不光有Mureka V8带来的那个“啊哈”时刻,更关键的是,供给侧和需求侧都在变。
一边是被彻底改写的供给侧。音乐创作不再是低频、高成本的少数人游戏,而是模型驱动下高频、可迭代、可版本化的日常生产。
另一边是被日渐激活的需求侧。当人们发现用AI能随时随地表达情绪、记录生活,那么音乐就从一种被动消费内容,变成了一种新的用来表达自我的语言。
于是天工AI相信,在供给与需求同时发生结构性变化的情况下,行业必然会出现新的平台形态,用以承载这种AI原生的内容形态、创作方式与用户行为。
正如Spotify在流行音乐时代所扮演的角色一样,AI音乐这一新音乐品类,也需要一个中心平台,来连接创作者、用户与分发生态。Mureka正是在这一判断下诞生的产品。
而从Mureka V8到V9,正值AI音乐从“模型效果探索期”进入“系统能力与工程化竞争期”的关键节点,天工AI用稳居全球第一梯队的实力把这个判断一步步做实了。

现在,当我们把三大模型的能力拼在一起时,天工AI关于世界模型的图景便逐渐清晰了:
Matrix-Game系列先把视觉与交互能力组织成一个可以实时运行的世界框架,SkyReels系列进一步承担对世界的理解与预测,Mureka系列则补齐表达与情绪维度。
在这个框架之上,声音、音乐等多模态能力还可以不断接入,最终走向一个更完整的可交互世界。
至此,一个可运行的世界模型雏形,已然出现。
原来天工AI下的是这样一盘棋
但问题是:这和我们开头讲的“平台”有啥关系?
很多人一看到三大模型齐发布,就会下意识以为,这不过是一次“模型的集中上新”。
但如果告诉你,这里的每一个模型都已跻身全球第一梯队,你是否会觉得事情开始变得不一样了。
没错,这正是天工AI在将多模态卷到顶之后的想法——让模型不再只是能力本身,而是变成可被组织、调度的平台资源。
至于怎么搭这个平台,天工AI董事长兼CEO周亚辉在发布会上将其总结为“3+1战略”,即三大场景大模型+天工超级智能体(Skywork Super Agents)。
我们正式发布昆仑万维2026年的AGI战略升级,即“3+1”生态架构。相比三年前,最大的变化在于收敛。
底层是四大SOTA大模型——视频、音乐、游戏世界模型,再加上面向Agent的Skywork 6.0,这是我们整个体系的引擎。
上层是三大AI原生平台经济体,通过SOTA模型驱动内容生产,再结合平台分发,形成端到端的闭环。
最后那个“1”,就是Skywork Super Agents。它是背后的通用操作系统,是面向未来5亿内容创作者的“一人公司操作系统”。

拆开来看,这套战略并不只是模型层面的能力组合,而是已经延伸到了具体的产品与平台形态:
- 游戏世界模型→新一代AI开放世界模拟游戏平台“猫森学园”;
- 视频模型→海外付费短剧平台DramaWave(“AI版Netflix”);
- 音乐模型→AI音乐创作与分发平台Mureka(“AI版Spotify”)。
显然,天工AI是想搭建这样一套体系——
底层是多模态模型能力,中间是统一调度的智能体,上层则是面向开发者与行业的应用与生态。
也就是说,到了现在这个阶段,天工AI已经在思考模型之后的下一步了,即如何将其组合成一个真正可用的系统。
那么问题来了,对天工AI来说,为什么是现在呢?
模型实力肯定是一部分原因。
无论从行业出发,还是天工AI自己取得的成就,都在说明模型能力已经到了临界点。
换言之,多模态协同已经具备了基础。
但更深的变化,其实还是来自产业侧——过去AI更多是工具,但现在开始进入生产流程本身。
要理解这一点,在以《全模态内容革命:AI游戏、AI视频、AI音乐的创新、落地与生态共建》为主题的圆桌环节,几位嘉宾的切实分享便是最直接的印证。
QQ炫舞创始人姚勇(下图左三)观察到,AI正在逐个击破游戏开发的“新鲜、好看、好玩”三座大山,将过去“费钱费时间”的环节大幅压缩。
电子音乐人、多领域创作者朱婧汐(右二)则将AI视为“同时打开很多扇窗”的助手,能帮她从几十种可能性中快速选择创作方向。
以前需要和制作人在录音棚里一个一个试风格,耗时费力,而现在AI可以瞬间生成几十种可能性,甚至是“非常抽象、夸张、不可思议”的尝试。
导演周楠(右一)则指出,对普通人而言AI降低了创作门槛,对专业创作者而言,真正的挑战在于如何让AI理解电影的专业语言(比如镜头、剪辑、叙事)——而这正是他们正在攻克的“临门一脚”。
只能说,在最先接触到AI的这批玩家里,AI已经成了他们工作流中不可或缺的角色,只不过鉴于AI能力还有增长空间,所以一时还各有难题需要解决。

Anyway,这些产业一线人员的经历表明:
当AI从“辅助”走向“参与”,甚至开始“主导”部分生产环节时,单点能力已经不够用了。
于是提前洞察这一趋势的天工AI,早早就给出了全模态的解法。
为什么要做全模态?昆仑万维董事长兼CEO方汉举了一个非常生动形象的例子:
全模态之所以存在就是为了降低表达门槛,比如为什么要做视频,这是因为世上还有很多人不识字,如果只有文字那么这部分人就无法表达自我、“被看见”。所以,全模态就是我们为了让所有人表达自己,而必须要走的一条路。
而在天工AI实现全模态后,接下来真正决定上限的,是能否把这些能力组织起来,承载真实的生产与交互。
而这,正是天工AI选择在这个时间点提出“3+1战略”的深层原因。
从这个角度讲,这次发布的意义不只是模型更强了,而是天工AI已经开始着手搭建一个AI平台——
一个将单模态能力组织起来,形成可持续、可规模化内容生产的系统。
从多模态来,到平台生态去。
全球第一梯队,迎来“全能”国产玩家!
而在发布会之外,天工AI转向“平台”背后还释放了更直接的信号:
全球第一梯队,迎来了一位全能国产玩家。
怎么说呢?这就像给整个行业投入了一尾鲶鱼,让竞争焦点从单点能力转向体系化能力。

过去一段时间,AI行业的竞争大致分成两条路径:
一类玩家主要在单一模态上卷极致,比如大家熟悉的Midjourney、还未“消亡”前的Sora等,一听名字你就知道它们是干啥的。
另一类则开始尝试把单一模态的能力拼起来,朝着一个统一的系统或平台发力。由于要做的事情更多更复杂,所以业界普遍认为后者更难。
现实中,后者不仅考验模型能力本身,还要求在架构设计、工程能力、产品形态乃至生态构建上形成协同——
任一环节掉链子,整套体系都很难成立。
也正因如此,真正走到这一步的玩家,始终寥寥。
而天工AI作为后者之一,它走到“平台”这一步,并不是偶然。
自母公司昆仑万维2022年确立“All in AGI与AIGC”战略以来,天工AI已经构建起“模型+产品”的完整矩阵。
一张图总结如下:

如果说这张图展示的是能力布局,那么实际表现同样给出了验证——目前昆仑万维的海外服务覆盖全球100多个国家和地区,全球平均月活跃用户近4亿,海外收入占比达92%。
所以回过头看,天工AI其实早就在为“平台”铺路:
从原生多模态的持续投入,到视频、音乐、游戏等多个方向的同步推进,再到这次以“3+1战略”为核心的整体亮相,这条路径始终在向同一个目标收敛。
而且虽然前面一直在说多模态,但天工AI实际上已经做到了“全模态”。

有一说一,互联网发展至今,几乎所有公司都曾试图“做平台”,毕竟“一流公司做平台”的口号已经深入人心。
但最终能够真正跑出来的,始终只有少数几家。
绝大多数失败者,往往败于“先搭台、后唱戏”——平台是建起来了,却没有足够稀缺的能力来支撑。
而天工AI的路径恰恰相反,先拿下“全模态”这张硬牌,再向平台延伸。
因此,虽然天工AI能否成为幸运儿尚未可知,但至少,这第一步算是已经抢先迈出去了。
而且别的不说,能在中关村论坛开AI专场(拿下国家级平台背书与政府认可),本身便是实力的证明。
Matrix-Game 3.0开源地址:
主页:https://matrix-game-v3.github.io/
代码:https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3
模型:https://huggingface.co/Skywork/Matrix-Game-3.0
版权所有,未经授权不得以任何形式转载及使用,违者必究。
Related Articles
Mark Zuckerberg is reportedly building an AI clone to replace him in meetings
Skip to main contentThe AI version of Zuckerberg is trained on his mannerisms, tone, and public statements, according to a report from the Financial Times.The AI version of Zuckerberg is trained on his...
今年最火的AI产品,不止龙虾|榜单申报中
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-04-13 ...
Sam Altman reportedly targeted in second attack
Jess Weatherbed is a news writer focused on creative industries, computing, and internet culture. Jess started her career at TechRadar, covering news and hardware reviews.Sam Altman was seemingly targeted by...
入职Meta的吴翼,清华叉院官网已撤其教职信息
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-04-13 ...