困住医疗AI的死循环,终于有国产玩家跑通了
<p>在多项关键医疗测评上打败了GPT-5.5</p> <p><strong>「智能是平等的,但是context是不平等的。」</strong></p>
Sam Altman不久前说了一句话,大意是:智能终将像水电一样成为基础设施,人人都能调用。但他也指出,AI当前最大的瓶颈不在智能,在「context gap」——系统没法持续理解用户的真实场景。
a16z在今年3月的一篇分析里说得更直接:没有正确context的AI Agent,基本无用。

这两个判断叠在一起,恰好解答了一个困扰我很久的疑惑:
为什么有些很火的垂直赛道,迟迟未能形成马太效应?比如医疗。
AI发展到现在,通用大模型的格局已经很清楚了。头部三五家吃下绝大多数市场,后来者连牌桌都很难上。
强者恒强,几乎是常识。
但医疗偏偏是个例外。这条赛道热了好几年,上百家公司涌进来,论文一茬接一茬,评测榜单你追我赶。
可奇怪的是,似乎没有人真正拉开明显差距。为什么?
如果从context的角度进行思考,答案很可能是:
不是大家实力接近,恰恰相反,是因为整个行业卡在了同一个结构性死结里——
数据、模型、场景,三者的闭环断了。
闭环怎么断的
先说数据。
数据在医疗行业的角色有点像「萧何」,成也它,败也它。
看起来数据足够丰富,病历、影像、检验结果几乎无处不在,所以早期大家一窝蜂涌进来。
但真正进来之后才发现:数据确实不缺了,但没法直接用啊。

很多厂商手里的确有大量原始医疗数据,但由于缺乏专业的标准化治理能力,所以难以转化为有效训练素材。
说白了,专业的事交给专业的人。医疗数据的标准化处理,需要懂医学的人来干。
懂医学的人从哪来?
像DeepMind这样的顶级实验室还能自搭内部医学团队,但对大多数公司来说,他们往往只能依赖外部医学标注团队或医院合作方,通过「外包」来补齐能力缺口。
走外包当然没问题,问题是高质量的医学治理资源本身就是稀缺品,而且很难规模化复制。
通俗点,能接这种活的团队就那么多,排队都排不过来。
所以结果就变成:
原始数据看起来很多,但真正经过专业治理、能稳定喂进训练流程的,其实非常有限。
说到底,原始数据不等于context。没经过治理的数据,是噪音,不是信号。

△图片由AI生成
再说场景。
很多人的想法是,虽然高质量数据少了点,但只要把模型扔进真实环境跑起来,不就能持续获取新数据、形成数据飞轮了吗?
思路没错,但飞轮恰恰卡在了这一步。
问题出在产品形态。
绝大多数医疗AI产品仍停留在「问答助手」阶段,能回答问题,却无法深度嵌入医生的工作流。
一个问答机器人哪怕每天被问一万次,沉淀下来的也只是「用户问了什么、AI怎么答的」,而真正有价值的数据,来自诊疗过程本身——
医生如何诊断、如何开药、如何调整治疗方案,以及患者最终恢复得怎么样。
进不去这些核心环节,就拿不到有效增量数据。
拿不到有效增量数据,模型当然还能靠公开文献和语料继续「刷分」,但这种提升更多停留在知识层面,而非临床决策与工作流层面。
结果就是一个很矛盾的现象:评测很强,但医院里的实际使用频率并不高。
于是死循环形成了:
产品进不了临床→拿不到真实诊疗数据→模型迭代没有燃料→产品更进不去。

△图片由AI生成
而现实的发展轨迹,几乎就是这个循环的真实写照。
据动脉智库统计,截至去年5月,国内累计发布的医疗大模型已达到288个,仅半年就新增133个。但与模型数量的快速增长形成鲜明对比的是,行业整体渗透率仍不足10%~20%。
所以说,现在整个行业面临的困境是:不是智能不够,是context攒不起来。
而当一个系统既无法持续积累真实临床context,又无法嵌入真实决策流程时,这个死结,本质上就已经被写死了。
问题只剩下一个:
有没有人,能把它重新解开?
答案是:还真有
环顾四周,讯飞医疗刚发布的「星火医疗大模型V3.5」就这样进入了我的视野。
除了比较「新」这个因素外,它身上有两点瞬间吸引了我:
一是在多项关键医疗测评上打败了GPT-5.5,虽说有「主场优势」,但能和OpenAI如今最强的模型过招,至少说明模型底子没问题。
二是众所周知讯飞一直深耕医院场景,如果说有人有机会打破前面那个死循环,那么讯飞大概是最有可能的一个。
而接下来的资料,也印证了我的判断。
查完一圈发现,它和赛道里其他玩家明显不同的地方在于:不只是评测能打,而且是真落地了。
评测方面。IDC《中国医疗大模型技术评估,2026》综合实力行业第一,15项核心指标中12项领跑;MedBench智能体评测98.9分登顶;医疗知识问答、医疗语言理解、诊断治疗推荐、医疗文书生成、医疗多模态交互、医疗多轮交互等多项关键临床任务综合能力,超越GPT-5.5最高推理档(Extra High)。

不过说实话,评测第一在这个赛道不稀奇,毕竟榜单轮流坐庄,今天你第一明天他第一,大家早就看习惯了。
真正稀缺的,是评测成绩和临床价值能对上账。
而摆在我眼前的是这样几个数字:
在多家头部三甲医院的真实应用中,使用星火医疗大模型V3.5生成病历的医生采纳率达到91%,病历书写时间缩短52%。
翻译翻译,超过九成的病历医生看过能签字,一天下来就省出几小时。
影像端同样跨过了实用门槛,X线、MR报告生成的医生采纳率75%,质控达到专家会诊水准。
而这些,还只是我看到的,模型能力的冰山一角。病历内涵质控、智能用药审核、跨专科辅助诊断、居民端的体检报告解读和慢病管理——多个刚需场景都已经跑起来了。
在国内医疗大模型赛道,评测和临床两面同时对上账的玩家,目前屈指可数。
而讯飞医疗,至少已经用成绩站到了前排。
讯飞医疗的context是怎么攒起来的
但成绩单本身仍不是重点,重点是:同一个死循环,讯飞医疗凭什么跑通?
答案,依旧要回到context身上寻找。
而差距正在于context——讯飞医疗的context,不是天上掉下来的,是十年一步一步跑出来的。

十年下来,讯飞医疗已经构建起了一套「场景→数据→治理→模型→更广场景」的自强化循环体系。
它做的第一件事,是把场景铺到足够广。
不是挑几家医院做试点,是从基层卫生院到三甲医院到影像云平台的全域覆盖。
什么样才能称得上「全域」?看一组数字你就明白了:
目前讯飞医疗已经覆盖全国806个区县、7.7万余家基层医疗机构,累计辅助诊断超12亿次。同时携手600多家等级医院,其中包括50余家百强医院和7家十强医院。
这个覆盖密度,在行业里并不常见。
而且不是接入了就完事,病历生成、处方审核、影像初筛,这些产品是直接嵌进医生每天的工作流里的。
但光铺医院还不够,一个患者的就医过程,不是只发生在医院里。
现在大家遇到头疼脑热都习惯先在手机上问一问症状,如果拿不准可能会去小区诊所或基层卫生院做个基础诊断,严重一点再转到大医院做进一步诊疗,出院之后也没结束,还要做康复随访、慢病管理这些长期跟踪。
讯飞医疗的产品,刚好把这条链路从头串到了尾。
这意味着什么?
沉淀下来的数据,不是某一个环节的碎片,而是一条从「咨询→首诊→诊疗→康复」的完整context链。
这种东西,只做一个环节的玩家根本攒不出来。
居民端医院端左右开弓,场景一旦足够深入,数据就开始自然沉淀。
而沉淀下来的数据,就成了讯飞医疗最核心的一层壁垒。
日积月累下来,它目前已拥有16亿人次脱敏医疗语音数据、12亿次真实诊疗数据,再加上每天新增超过220万份语音、影像、病历等跨模态样本。
这种规模的真实医疗数据储备,已经很难在短期内复制。

△图片由AI生成
但光有数据量还不够。前面说了,原始数据不等于context,关键在治理。
讯飞医疗的数据治理,不是外包,是全职的医学专家团队在主导。
这一环是整个飞轮里最容易被低估的壁垒。
原始数据人人都有,但把数据变成context的能力,行业里极少数玩家具备。
有了高质量数据,这下终于可以训练出一个好模型了。
而在「训模型」这个步骤里,讯飞医疗有个动作很关键:从算力底座到模型训练,走通了国产化路线。
算力层面,星火医疗大模型V3.5基于昇腾910B全国产算力底座训练,率先在国产算力平台上跑通了DSA(动态稀疏注意力)和MTP(多Token预测)的长文本高效训练,推理吞吐量提升4.5倍。
对医疗这个相对敏感的行业来说,国产算力合规在今天已经不是加分项,而逐渐成为一项重要准入门槛。实践中,这也是政府端、医院端客户比较看重的一点。
最后一环,是从模型回到应用。
模型在面向医生和面向居民的两端同时落地应用,而医生端和居民端的双向协同,让飞轮多了一个加速器。
全部串起来,你将得到一个完整循环:
场景进入→数据沉淀→数据被治理成context→模型增强→再进入更深场景。
「原神,就此启动。」
AI医疗行业的马太效应,悄然出现了
到这里,我算是大概弄明白了讯飞医疗背后的运作逻辑。
看起来确实挺复杂,但往回一想,其实还是能用开头那句话说清楚:
智能是平等的,但context不是。

虽然「context」是近一两年才被大家广泛提及的概念,但讯飞医疗其实已经默默攒了十年,从最早铺场景、做数据治理、适配国产算力,到今天星火医疗大模型V3.5的全面落地——
这些事在当时未必有一个统一的名字,但回过头看,每一步都是在为严肃医疗的context的积累做准备。
每一环都需要时间,环环相扣。后来者即便在某个点上追上来,也很难同时补齐全部要件。
而这,恰恰就是马太效应开始形成的标志:
不是某次评测拿了第一,是一个完整的正向飞轮开始转动。
先跑通的人越转越快,没跑通的人还在死循环里打转。

△图片由AI生成
不过说一千道一万,一切都还要回到那个最朴素的问题:
医生到底用不用?有没有真正跨过那道实用门槛?
评测跑分高,只能说明模型能力上限不错,但更关键的是,在真实病历里,医生愿不愿意采纳、甚至愿意签字负责。
而前面提到的91%采纳率,不是实验室指标,是真实诊室里的反馈——
这说明医生在日常工作中,已经用实际行动投了票。
讯飞医疗,已经拿到了这张信任票。
说实话,我个人的感觉是,这一轮医疗AI的变化,可能比很多人想象得更慢,但也更确定。
星火医疗大模型V3.5这次的落地,与其说是一次产品升级,不如说是让这个行业的分层开始变得肉眼可见。
前面那种「大家都在做模型、谁也没拉开太大差距」的阶段,可能真的要过去了。
接下来会发生什么,其实不难想。
资源大概率会开始往少数已经跑通链路的玩家那里集中,比如真实临床数据、医院合作深度、医学人才密度,这些东西本来就不是可以快速复制的。
而另一边,那些还停留在「通用模型+轻量医疗适配」的玩家,空间会越来越被压缩。
倒不是谁不够努力,而是这个游戏开始变成另一种规则了:不是比谁更聪明,是比谁更早把闭环跑起来。
说到底,大模型的下半场,比的可能真的不是「智能」,而是context。
而context这种东西,也挺现实的。
光靠训练堆不出来,开会喊口号更没用,它就得扎进真场景里,一点一滴磨出来。
谁先攒够,谁就有机会起飞。
讯飞医疗,下的便是这盘棋。
版权所有,未经授权不得以任何形式转载及使用,违者必究。
Related Articles
The next humanoid robot might not look human at all
The next humanoid robot might not have a head. It might not have legs. It might even sit on a wheeled base and fold down like a deck chair. But, as Genesis AI puts it, "humanoid robots don't need to look human." That explains the look of Eno, the new robot from the French startup backed by former Google CEO Eric Schmidt. Genesis says Eno is designed "around human capability" rather than human appearance and is intended as a fully "general-purpose" robot rather than a machine built around a sing
微信支付发布AI专属卡 WorkBuddy率先接入
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-06-17 ...
头部具身大脑公司再获数亿美元融资!世界模型路线,15家VC抢着投
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-06-17 ...
林俊旸新公司卜拉格亮相!首轮估值135亿,腾讯高榕红杉全投了
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-06-17 ...