实测拿215项SOTA的Qwen3.5-Omni:摄像头一开,AI给我现场讲论文、撸代码
<p>能看能听能唠嗑,还能现场vibe coding</p> <p><b>Qwen3.5-Omni</b>来了!</p>
实测下来最大的感受是——AI终于可以和我开着视频会议正经讨论工作了。
能vibe coding,能给我讲论文,还能帮我拉片。
这不活脱脱一个工作好手!

官方介绍,Qwen3.5-Omni做到了真正的“全模态”原生,无缝理解文本、图片、音频及音视频输入,能够生成支持细粒度、带时间戳的音视频脚本。
它提供了Plus、Flash、Light三种尺寸,支持256K上下文与113种语言识别,可处理10小时音频或1小时视频。
在benchmark上的表现也相当强势,Qwen3.5-Omni拿下了215项SOTA,整体成绩跟Gemini 3.1 Pro打得有来有回。

其中,通用音频理解、推理、识别、翻译、对话全面超越了Gemini-3.1 Pro,音视频理解能力总体达到Gemini-3.1 Pro水平。
视觉和文本能力则与同尺寸Qwen3.5模型持平。
Qwen3.5-Omni还有一大亮点:自然涌现的vibe coding能力。它可以在实时视频通话中,根据画面逻辑生成Python代码或前端原型。
消息一出,X上也沸腾了。有网友评价:
这是一次巨大的飞跃!完全改变了用户与AI的交互方式。

老规矩,一波实测走起~
一手实测Qwen3.5-Omni
音视频拆解和分析
先来考考Qwen3.5-Omni引以为傲的视频拆解能力。
我给它上传了无字幕版的《疯狂动物城2》的预告片,让它分析视频,并生成详细的视频的脚本。
【此处无法插入视频,遗憾……可到量子位公众号查看~】
要知道,预告片在视频理解领域并不好处理。它节奏紧凑、镜头密集,画面之间没有明确的逻辑关系,出场人物还非常多。
但这对Qwen3.5-Omni来说不在话下,大概几秒左右,它就给我生成了一个带时间戳的详细脚本。

可以看到,不仅拆解了分镜和画面,还分析了字幕、特效、音乐、蒙太奇手法等等,每一个出场的人物也都没落下。
接下来进一步增加难度,继续追问:
37秒左右出场的人物是谁?他们在干什么?

这也难不倒它,几秒钟就给出了答案,并且完全正确。答案就是尼克、朱迪和蓝蛇盖瑞,它还附带分析了音效和氛围。
不过,我还想让它进一步评价一下这支预告片,分析其节奏和手法,以及传递了怎样的思想感情。

这回它也是很快给出了答案,不仅详细分析了“快—慢—爆—收”的波浪式结构,而且还在没有对话和字幕的情况下,解读出了预告片中的种种隐喻。
这…这不就是活脱脱一个拉片小能手吗!
看视频做网页
接下来,我迫不及待要试一下Qwen3.5-Omni最大的亮点——边打视频边vibe coding。
在Qwen Chat里打开视频通话功能,它可以看到你摄像头呈现的画面,还能一边跟你对话,就像跟真人开视频会议一样。
我让它根据我画的前端草图,做一个关于Geoffery Hinton的网页:
【此处无法插入视频,遗憾……可到量子位公众号查看~】
不知道有没有uu体会出来,对面的AI小姐姐说话也是很有感情的,语气、停顿、轻笑等等,都和真人很相似。
它领了任务之后,很快就帮我生成了HTML+CSS代码,并给出了网页预览,前后不过十多秒钟。
【此处无法插入视频,遗憾……可到量子位公众号查看~】
一起来看看它给出的结果吧~

嗯……整体效果还是可以的,确实按照我画的草图来设计了前端界面。
由于模型原生支持WebSearch和复杂FunctionCall的调用能力,这里它也是调用了WebSearch来帮我填充内容。
美中不足的是没有填充图片,以及内容还是比较简单了。不过视频通话加上vibe coding这一连串下来,给人感觉还是挺惊艳的。
实时对话解读论文
不止如此,Qwen3.5-Omni还可以一边跟你打视频,一边解读论文。
不知道有没有uu跟我一样,觉得AI领域的论文实在太难读了!!
不仅全英文,各类图表、公式也很多,艰深术语满天飞,真的很难在没有AI辅助的情况下啃明白。
现在有了Qwen3.5-Omni,也不需要把文章内容复制给AI了,直接打开摄像头让它“看”,它就能给我讲明白。
我们打开Yann LeCun团队发的世界模型新论文——LeWorldModel,让它来试一试:
【此处无法插入视频,遗憾……可到量子位公众号查看~】
可以看到,Qwen3.5-Omni根据实时看到的画面,直接用大白话告诉我LeWorldModel是个啥东西,跟以往的方法有何不同,创新之处在哪里。
中间我直接打断了它的讲述,问它其中一张图讲了什么,它也会立刻切换节奏回答我。
这也是Qwen3.5-Omni这次的一大更新:支持语义打断。
但它非常智能的一点是,不会被附和或无意义的背景音打断。可以听到我中间是有一些开门关门的杂音的,它也没有受干扰,仍然在解读论文。
咱就是说,以后读学术论文更友好了有木有!
不用再对着满屏冷冰冰的术语头疼了,有了AI视频通话给你讲论文,可以随时打断或切换重点,情绪价值也能拉满~
215项SOTA,打平Gemini 3.1-Pro
接下来详细唠唠Qwen3.5-Omni在benchmark上的表现。
可以说相当亮眼,Qwen3.5-Omni-Plus足足拿下了215项SOTA,跟Gemini 3.1-Pro那是打得有来有回。
在通用音频理解、推理、识别、翻译、对话等指标上,都全面超越了Gemini 3.1-Pro,音视频理解能力整体达到Gemini 3.1-Pro的水平。


视觉和文本能力方面,则与同尺寸Qwen3.5模型持平。


官方介绍,与上一代Qwen3-Omni相比,Qwen3.5-Omni在长上下文、多语言、音视频理解能力上都有明显提升。
同时新增了语义打断、音色克隆、语音控制等实时交互能力,让对话体验更接近真人。
配合ARIA(自适应速率交错对齐)技术,语音输出的稳定性和自然度也进一步改善。
模型架构:会思考+会说话
那么,Qwen3.5-Omni是怎么做到“边看边想边输出”的呢?
答案在模型架构上。Qwen3.5-Omni延续了Thinker-Talker架构,可以理解成一个“会思考+会说话”的双系统结构:
Thinker(大脑):负责理解一切输入;
Talker(嘴巴):负责把结果说出来。

并且这一次,两者都升级为Hybrid-Attention MoE,效率和性能均有显著提升。
Thinker可以同时处理图像、声音、文本这些不同类型的信息。
模型会把音频和视频“混在一起”输入(就像一边看一边听),再用一种特殊的位置编码方式去理解它们之间的时间关系。
最终,Thinker把所有多模态信息“想明白”,并输出成文本。
Talker更像一个“AI配音演员”,它会根据Thinker给出的内容,把文本变成自然的语音。
这里有几个关键升级:第一,语音生成更轻量、更高效。这一代没有再用计算量很大的生成方式,而是换成了一种类似“语音压缩编码”的方法(RVQ)。
可以理解为不再是现场“逐帧渲染声音”,而是用更高效的“拼装声音单元”的方式生成语音。好处就是更快、更省算力。
第二,解决“AI说话不稳定”的老问题。
以前模型在说话时,经常出现漏读、读错、数字发音奇怪等问题,原因在于文本和语音的编码节奏不一样,可以理解为一个说得快,一个说得慢。
Qwen3.5-Omni引入了一个机制——ARIA(自适应速率交错对齐技术),本质就是动态对齐文本和语音的节奏,再交错组合输出。
可以做到说话更稳、更清晰,基本不会“嘴瓢”。
第三,真正做到“实时对话”。
Qwen3.5-Omni通过一套“边输入、边处理、边生成”的流式设计:你还没说完,模型已经在理解;它还没想完,就已经开始说。
这样就可以做到像真人一样实时对话,而不是“说一句等三秒”。
这也是为啥有时跟Qwen3.5-Omni对话,会感觉它在抢话,或者你刚说几个字,它就迫不及待接话了。

目前,新模型在Qwen Chat上就可以体验,你也可以通过阿里云百炼搜索Qwen3.5-Omni调用API。注意如果想体验视频通话,需要在手机网页端的Qwen Chat上使用~
地址已经附在下方,uu们快去试试吧~
Qwen Chat:
https://chat.qwen.ai/
API 离线:
https://help.aliyun.com/zh/model-studio/qwen-omni
API 实时:
https://help.aliyun.com/zh/mode
版权所有,未经授权不得以任何形式转载及使用,违者必究。
Related Articles
Mark Zuckerberg is reportedly building an AI clone to replace him in meetings
Skip to main contentThe AI version of Zuckerberg is trained on his mannerisms, tone, and public statements, according to a report from the Financial Times.The AI version of Zuckerberg is trained on his...
今年最火的AI产品,不止龙虾|榜单申报中
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-04-13 ...
Sam Altman reportedly targeted in second attack
Jess Weatherbed is a news writer focused on creative industries, computing, and internet culture. Jess started her career at TechRadar, covering news and hardware reviews.Sam Altman was seemingly targeted by...
入职Meta的吴翼,清华叉院官网已撤其教职信息
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-04-13 ...