实测拿215项SOTA的Qwen3.5-Omni：摄像头一开，AI给我现场讲论文、撸代码

        <p>能看能听能唠嗑，还能现场vibe coding</p>                			<p><b>Qwen3.5-Omni</b>来了！</p>

实测下来最大的感受是——AI终于可以和我开着视频会议正经讨论工作了。

能vibe coding，能给我讲论文，还能帮我拉片。

这不活脱脱一个工作好手！

官方介绍，Qwen3.5-Omni做到了真正的“全模态”原生，无缝理解文本、图片、音频及音视频输入，能够生成支持细粒度、带时间戳的音视频脚本。

它提供了Plus、Flash、Light三种尺寸，支持256K上下文与113种语言识别，可处理10小时音频或1小时视频。

在benchmark上的表现也相当强势，Qwen3.5-Omni拿下了215项SOTA，整体成绩跟Gemini 3.1 Pro打得有来有回。

其中，通用音频理解、推理、识别、翻译、对话全面超越了Gemini-3.1 Pro，音视频理解能力总体达到Gemini-3.1 Pro水平。

视觉和文本能力则与同尺寸Qwen3.5模型持平。

Qwen3.5-Omni还有一大亮点：自然涌现的vibe coding能力。它可以在实时视频通话中，根据画面逻辑生成Python代码或前端原型。

消息一出，X上也沸腾了。有网友评价：

这是一次巨大的飞跃！完全改变了用户与AI的交互方式。

老规矩，一波实测走起~

一手实测Qwen3.5-Omni

音视频拆解和分析

先来考考Qwen3.5-Omni引以为傲的视频拆解能力。

我给它上传了无字幕版的《疯狂动物城2》的预告片，让它分析视频，并生成详细的视频的脚本。

【此处无法插入视频，遗憾……可到量子位公众号查看～】

要知道，预告片在视频理解领域并不好处理。它节奏紧凑、镜头密集，画面之间没有明确的逻辑关系，出场人物还非常多。

但这对Qwen3.5-Omni来说不在话下，大概几秒左右，它就给我生成了一个带时间戳的详细脚本。

可以看到，不仅拆解了分镜和画面，还分析了字幕、特效、音乐、蒙太奇手法等等，每一个出场的人物也都没落下。

接下来进一步增加难度，继续追问：

37秒左右出场的人物是谁？他们在干什么？

这也难不倒它，几秒钟就给出了答案，并且完全正确。答案就是尼克、朱迪和蓝蛇盖瑞，它还附带分析了音效和氛围。

不过，我还想让它进一步评价一下这支预告片，分析其节奏和手法，以及传递了怎样的思想感情。

这回它也是很快给出了答案，不仅详细分析了“快—慢—爆—收”的波浪式结构，而且还在没有对话和字幕的情况下，解读出了预告片中的种种隐喻。

这…这不就是活脱脱一个拉片小能手吗！

看视频做网页

接下来，我迫不及待要试一下Qwen3.5-Omni最大的亮点——边打视频边vibe coding。

在Qwen Chat里打开视频通话功能，它可以看到你摄像头呈现的画面，还能一边跟你对话，就像跟真人开视频会议一样。

我让它根据我画的前端草图，做一个关于Geoffery Hinton的网页：

【此处无法插入视频，遗憾……可到量子位公众号查看～】

不知道有没有uu体会出来，对面的AI小姐姐说话也是很有感情的，语气、停顿、轻笑等等，都和真人很相似。

它领了任务之后，很快就帮我生成了HTML+CSS代码，并给出了网页预览，前后不过十多秒钟。

【此处无法插入视频，遗憾……可到量子位公众号查看～】

一起来看看它给出的结果吧~

嗯……整体效果还是可以的，确实按照我画的草图来设计了前端界面。

由于模型原生支持WebSearch和复杂FunctionCall的调用能力，这里它也是调用了WebSearch来帮我填充内容。

美中不足的是没有填充图片，以及内容还是比较简单了。不过视频通话加上vibe coding这一连串下来，给人感觉还是挺惊艳的。

实时对话解读论文

不止如此，Qwen3.5-Omni还可以一边跟你打视频，一边解读论文。

不知道有没有uu跟我一样，觉得AI领域的论文实在太难读了！！

不仅全英文，各类图表、公式也很多，艰深术语满天飞，真的很难在没有AI辅助的情况下啃明白。

现在有了Qwen3.5-Omni，也不需要把文章内容复制给AI了，直接打开摄像头让它“看”，它就能给我讲明白。

我们打开Yann LeCun团队发的世界模型新论文——LeWorldModel，让它来试一试：

【此处无法插入视频，遗憾……可到量子位公众号查看～】

可以看到，Qwen3.5-Omni根据实时看到的画面，直接用大白话告诉我LeWorldModel是个啥东西，跟以往的方法有何不同，创新之处在哪里。

中间我直接打断了它的讲述，问它其中一张图讲了什么，它也会立刻切换节奏回答我。

这也是Qwen3.5-Omni这次的一大更新：支持语义打断。

但它非常智能的一点是，不会被附和或无意义的背景音打断。可以听到我中间是有一些开门关门的杂音的，它也没有受干扰，仍然在解读论文。

咱就是说，以后读学术论文更友好了有木有！

不用再对着满屏冷冰冰的术语头疼了，有了AI视频通话给你讲论文，可以随时打断或切换重点，情绪价值也能拉满~

215项SOTA，打平Gemini 3.1-Pro

接下来详细唠唠Qwen3.5-Omni在benchmark上的表现。

可以说相当亮眼，Qwen3.5-Omni-Plus足足拿下了215项SOTA，跟Gemini 3.1-Pro那是打得有来有回。

在通用音频理解、推理、识别、翻译、对话等指标上，都全面超越了Gemini 3.1-Pro，音视频理解能力整体达到Gemini 3.1-Pro的水平。

视觉和文本能力方面，则与同尺寸Qwen3.5模型持平。

官方介绍，与上一代Qwen3-Omni相比，Qwen3.5-Omni在长上下文、多语言、音视频理解能力上都有明显提升。

同时新增了语义打断、音色克隆、语音控制等实时交互能力，让对话体验更接近真人。

配合ARIA（自适应速率交错对齐）技术，语音输出的稳定性和自然度也进一步改善。

模型架构：会思考+会说话

那么，Qwen3.5-Omni是怎么做到“边看边想边输出”的呢？

答案在模型架构上。Qwen3.5-Omni延续了Thinker-Talker架构，可以理解成一个“会思考+会说话”的双系统结构：

Thinker（大脑）：负责理解一切输入；

Talker（嘴巴）：负责把结果说出来。

并且这一次，两者都升级为Hybrid-Attention MoE，效率和性能均有显著提升。

Thinker可以同时处理图像、声音、文本这些不同类型的信息。

模型会把音频和视频“混在一起”输入（就像一边看一边听），再用一种特殊的位置编码方式去理解它们之间的时间关系。

最终，Thinker把所有多模态信息“想明白”，并输出成文本。

Talker更像一个“AI配音演员”，它会根据Thinker给出的内容，把文本变成自然的语音。

这里有几个关键升级：第一，语音生成更轻量、更高效。这一代没有再用计算量很大的生成方式，而是换成了一种类似“语音压缩编码”的方法（RVQ）。

可以理解为不再是现场“逐帧渲染声音”，而是用更高效的“拼装声音单元”的方式生成语音。好处就是更快、更省算力。

第二，解决“AI说话不稳定”的老问题。

以前模型在说话时，经常出现漏读、读错、数字发音奇怪等问题，原因在于文本和语音的编码节奏不一样，可以理解为一个说得快，一个说得慢。

Qwen3.5-Omni引入了一个机制——ARIA（自适应速率交错对齐技术），本质就是动态对齐文本和语音的节奏，再交错组合输出。

可以做到说话更稳、更清晰，基本不会“嘴瓢”。

第三，真正做到“实时对话”。

Qwen3.5-Omni通过一套“边输入、边处理、边生成”的流式设计：你还没说完，模型已经在理解；它还没想完，就已经开始说。

这样就可以做到像真人一样实时对话，而不是“说一句等三秒”。

这也是为啥有时跟Qwen3.5-Omni对话，会感觉它在抢话，或者你刚说几个字，它就迫不及待接话了。

目前，新模型在Qwen Chat上就可以体验，你也可以通过阿里云百炼搜索Qwen3.5-Omni调用API。注意如果想体验视频通话，需要在手机网页端的Qwen Chat上使用~

地址已经附在下方，uu们快去试试吧~

Qwen Chat：
https://chat.qwen.ai/
API 离线:
https://help.aliyun.com/zh/model-studio/qwen-omni
API 实时:
https://help.aliyun.com/zh/mode

实测拿215项SOTA的Qwen3.5-Omni：摄像头一开，AI给我现场讲论文、撸代码