阶跃最新语音模型位列 Artificial Analysis 评测榜中国第一
5 月 9 日,全球权威 TTS 评测榜单 Artificial Analysis Speech Arena Leaderboard 更新,阶跃语音生成模型 StepAudio 2.5 TTS 跻身全球前三,成为当前榜单排名最高的中国大模型。

不同于传统实验室指标,该榜单采用盲测 Elo 评分机制,由用户在不知道模型身份的情况下,直接对同一文本生成的两段语音进行听感判断,测试覆盖客户服务、知识分享、数字助手、娱乐等真实应用场景。这意味着,StepAudio 2.5 TTS 的领先并不只是参数或指标上的提升,而是在真实用户听感中展现出更自然、更接近真人表达的能力,在实际落地中具备更强竞争力。
据了解,阶跃近期集中发布 StepAudio 2.5 系列模型,包括 TTS、ASR 和 Realtime 三款模型,覆盖语音生成、语音识别与实时语音交互全链路。其中,StepAudio 2.5 TTS 面向高自然度语音生成,StepAudio 2.5 ASR 主打高速高精度识别,就在昨日 StepAudio 2.5 Realtime 也火速上线,聚焦打造更有“活人感”的 AI 聊天搭子,具备顶级副语言能力、千万人设自定义、领先智商情商等特点,强调带来“有温度、有灵魂、有态度”的实时语音交互体验。
AI 语音模型一直被行业视为实现人机交互的核心入口,包括 OpenAI、Google 等全球顶尖科技公司均在长期且高强度投入。记者观察到,阶跃在 AI 语音领域已进行长期深度布局:开源原生推理语音模型 Step Audio R1.1 已连续 4 个月霸榜 Artificial Analysis Speech Reasoning,目前仍位于全球第一;开源全球首个迭代式情绪风格语音编辑模型 Step Audio EditX,该模型为 zero-shot TTS,仅用 3s 复刻的音色效果可打败许多闭源 TTS 模型主音色;目前位列 Artificial Analysis Speech Arena Leaderboard 开源榜全球第二。
|
|
|
在商业化方面,阶跃语音模型已在多个核心终端场景实现规模化商业落地。比如搭载吉利银河 M9,阶跃率先实现端到端语音大模型量产上车;为整车智能体超级 Eva 提供语音交互能力,首发搭载极氪 8X 也已实现量产上市。
-本文系量子位授权转载-
版权所有,未经授权不得以任何形式转载及使用,违者必究。
Related Articles
Something’s off with Midjourney’s pivot to body scanners
Last week, Midjourney, an AI startup best known for its image generator, made an unusual pivot: medical imaging.The company announced a futuristic ultrasound scanner that would dunk users into a vat of water...
The Fitbit Air takes a smarter approach to the AI health dumpster fire
Google Health Coach seems to think I’m on the verge of physical collapse. My sleep is not where it needs to be, hence my unimpressive readiness score. My heart rate variability, a measure of how recovered I...
正行创新完成近亿美元天使轮融资,正大集团、华勤技术等多家上市企业联合加持
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> ...
云计算一哥,让小鹏、Kimi和猎豹都爽了一把
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-06-23 ...