Back to Blog

困住医疗AI的死循环,终于有国产玩家跑通了

2026年6月17日
        <p>在多项关键医疗测评上打败了GPT-5.5</p>                			<p><strong>「智能是平等的,但是context是不平等的。」</strong></p>

Sam Altman不久前说了一句话,大意是:智能终将像水电一样成为基础设施,人人都能调用。但他也指出,AI当前最大的瓶颈不在智能,在context gap——系统没法持续理解用户的真实场景。

a16z在今年3月的一篇分析里说得更直接:没有正确context的AI Agent,基本无用。

这两个判断叠在一起,恰好解答了一个困扰我很久的疑惑:

为什么有些很火的垂直赛道,迟迟未能形成马太效应?比如医疗

AI发展到现在,通用大模型的格局已经很清楚了。头部三五家吃下绝大多数市场,后来者连牌桌都很难上。

强者恒强,几乎是常识。

但医疗偏偏是个例外。这条赛道热了好几年,上百家公司涌进来,论文一茬接一茬,评测榜单你追我赶。

可奇怪的是,似乎没有人真正拉开明显差距。为什么?

如果从context的角度进行思考,答案很可能是:

不是大家实力接近,恰恰相反,是因为整个行业卡在了同一个结构性死结里——

数据、模型、场景,三者的闭环断了

闭环怎么断的

先说数据。

数据在医疗行业的角色有点像「萧何」,成也它,败也它。

看起来数据足够丰富,病历、影像、检验结果几乎无处不在,所以早期大家一窝蜂涌进来。

但真正进来之后才发现:数据确实不缺了,但没法直接用啊。

很多厂商手里的确有大量原始医疗数据,但由于缺乏专业的标准化治理能力,所以难以转化为有效训练素材。

说白了,专业的事交给专业的人。医疗数据的标准化处理,需要懂医学的人来干。

懂医学的人从哪来?

像DeepMind这样的顶级实验室还能自搭内部医学团队,但对大多数公司来说,他们往往只能依赖外部医学标注团队或医院合作方,通过「外包」来补齐能力缺口。

走外包当然没问题,问题是高质量的医学治理资源本身就是稀缺品,而且很难规模化复制。

通俗点,能接这种活的团队就那么多,排队都排不过来。

所以结果就变成:

原始数据看起来很多,但真正经过专业治理、能稳定喂进训练流程的,其实非常有限

说到底,原始数据不等于context。没经过治理的数据,是噪音,不是信号。

△图片由AI生成

再说场景。

很多人的想法是,虽然高质量数据少了点,但只要把模型扔进真实环境跑起来,不就能持续获取新数据、形成数据飞轮了吗?

思路没错,但飞轮恰恰卡在了这一步。

问题出在产品形态

绝大多数医疗AI产品仍停留在「问答助手」阶段,能回答问题,却无法深度嵌入医生的工作流。

一个问答机器人哪怕每天被问一万次,沉淀下来的也只是「用户问了什么、AI怎么答的」,而真正有价值的数据,来自诊疗过程本身——

医生如何诊断、如何开药、如何调整治疗方案,以及患者最终恢复得怎么样。

进不去这些核心环节,就拿不到有效增量数据。

拿不到有效增量数据,模型当然还能靠公开文献和语料继续「刷分」,但这种提升更多停留在知识层面,而非临床决策与工作流层面。

结果就是一个很矛盾的现象:评测很强,但医院里的实际使用频率并不高

于是死循环形成了:

产品进不了临床→拿不到真实诊疗数据→模型迭代没有燃料→产品更进不去

△图片由AI生成

而现实的发展轨迹,几乎就是这个循环的真实写照。

据动脉智库统计,截至去年5月,国内累计发布的医疗大模型已达到288个,仅半年就新增133个。但与模型数量的快速增长形成鲜明对比的是,行业整体渗透率仍不足10%~20%。

所以说,现在整个行业面临的困境是:不是智能不够,是context攒不起来

而当一个系统既无法持续积累真实临床context,又无法嵌入真实决策流程时,这个死结,本质上就已经被写死了。

问题只剩下一个:

有没有人,能把它重新解开?

答案是:还真有

环顾四周,讯飞医疗刚发布的「星火医疗大模型V3.5」就这样进入了我的视野。

除了比较「新」这个因素外,它身上有两点瞬间吸引了我:

一是在多项关键医疗测评上打败了GPT-5.5,虽说有「主场优势」,但能和OpenAI如今最强的模型过招,至少说明模型底子没问题。

二是众所周知讯飞一直深耕医院场景,如果说有人有机会打破前面那个死循环,那么讯飞大概是最有可能的一个。

而接下来的资料,也印证了我的判断。

查完一圈发现,它和赛道里其他玩家明显不同的地方在于:不只是评测能打,而且是真落地了

评测方面。IDC《中国医疗大模型技术评估,2026》综合实力行业第一,15项核心指标中12项领跑;MedBench智能体评测98.9分登顶;医疗知识问答、医疗语言理解、诊断治疗推荐、医疗文书生成、医疗多模态交互、医疗多轮交互等多项关键临床任务综合能力,超越GPT-5.5最高推理档(Extra High)。

不过说实话,评测第一在这个赛道不稀奇,毕竟榜单轮流坐庄,今天你第一明天他第一,大家早就看习惯了。

真正稀缺的,是评测成绩和临床价值能对上账

而摆在我眼前的是这样几个数字:

在多家头部三甲医院的真实应用中,使用星火医疗大模型V3.5生成病历的医生采纳率达到91%,病历书写时间缩短52%

翻译翻译,超过九成的病历医生看过能签字,一天下来就省出几小时。

影像端同样跨过了实用门槛,X线、MR报告生成的医生采纳率75%,质控达到专家会诊水准

而这些,还只是我看到的,模型能力的冰山一角。病历内涵质控、智能用药审核、跨专科辅助诊断、居民端的体检报告解读和慢病管理——多个刚需场景都已经跑起来了。

在国内医疗大模型赛道,评测和临床两面同时对上账的玩家,目前屈指可数。

而讯飞医疗,至少已经用成绩站到了前排。

讯飞医疗的context是怎么攒起来的

但成绩单本身仍不是重点,重点是:同一个死循环,讯飞医疗凭什么跑通?

答案,依旧要回到context身上寻找。

而差距正在于context——讯飞医疗的context,不是天上掉下来的,是十年一步一步跑出来的

十年下来,讯飞医疗已经构建起了一套「场景→数据→治理→模型→更广场景」的自强化循环体系。

它做的第一件事,是把场景铺到足够广

不是挑几家医院做试点,是从基层卫生院到三甲医院到影像云平台的全域覆盖。

什么样才能称得上「全域」?看一组数字你就明白了:

目前讯飞医疗已经覆盖全国806个区县、7.7万余家基层医疗机构,累计辅助诊断超12亿次。同时携手600多家等级医院,其中包括50余家百强医院和7家十强医院。

这个覆盖密度,在行业里并不常见。

而且不是接入了就完事,病历生成、处方审核、影像初筛,这些产品是直接嵌进医生每天的工作流里的。

但光铺医院还不够,一个患者的就医过程,不是只发生在医院里

现在大家遇到头疼脑热都习惯先在手机上问一问症状,如果拿不准可能会去小区诊所或基层卫生院做个基础诊断,严重一点再转到大医院做进一步诊疗,出院之后也没结束,还要做康复随访、慢病管理这些长期跟踪。

讯飞医疗的产品,刚好把这条链路从头串到了尾。

这意味着什么?

沉淀下来的数据,不是某一个环节的碎片,而是一条从「咨询→首诊→诊疗→康复」的完整context链。

这种东西,只做一个环节的玩家根本攒不出来。

居民端医院端左右开弓,场景一旦足够深入,数据就开始自然沉淀

而沉淀下来的数据,就成了讯飞医疗最核心的一层壁垒。

日积月累下来,它目前已拥有16亿人次脱敏医疗语音数据、12亿次真实诊疗数据,再加上每天新增超过220万份语音、影像、病历等跨模态样本。

这种规模的真实医疗数据储备,已经很难在短期内复制。

△图片由AI生成

但光有数据量还不够。前面说了,原始数据不等于context,关键在治理。

讯飞医疗的数据治理,不是外包,是全职的医学专家团队在主导

这一环是整个飞轮里最容易被低估的壁垒。

原始数据人人都有,但把数据变成context的能力,行业里极少数玩家具备。

有了高质量数据,这下终于可以训练出一个好模型了。

而在「训模型」这个步骤里,讯飞医疗有个动作很关键:从算力底座到模型训练,走通了国产化路线

算力层面,星火医疗大模型V3.5基于昇腾910B全国产算力底座训练,率先在国产算力平台上跑通了DSA(动态稀疏注意力)和MTP(多Token预测)的长文本高效训练,推理吞吐量提升4.5倍。

对医疗这个相对敏感的行业来说,国产算力合规在今天已经不是加分项,而逐渐成为一项重要准入门槛。实践中,这也是政府端、医院端客户比较看重的一点。

最后一环,是从模型回到应用

模型在面向医生和面向居民的两端同时落地应用,而医生端和居民端的双向协同,让飞轮多了一个加速器。

全部串起来,你将得到一个完整循环:

场景进入→数据沉淀→数据被治理成context→模型增强→再进入更深场景。

「原神,就此启动。」

AI医疗行业的马太效应,悄然出现了

到这里,我算是大概弄明白了讯飞医疗背后的运作逻辑。

看起来确实挺复杂,但往回一想,其实还是能用开头那句话说清楚:

智能是平等的,但context不是

虽然「context」是近一两年才被大家广泛提及的概念,但讯飞医疗其实已经默默攒了十年,从最早铺场景、做数据治理、适配国产算力,到今天星火医疗大模型V3.5的全面落地——

这些事在当时未必有一个统一的名字,但回过头看,每一步都是在为严肃医疗的context的积累做准备。

每一环都需要时间,环环相扣。后来者即便在某个点上追上来,也很难同时补齐全部要件。

而这,恰恰就是马太效应开始形成的标志:

不是某次评测拿了第一,是一个完整的正向飞轮开始转动

先跑通的人越转越快,没跑通的人还在死循环里打转。

△图片由AI生成

不过说一千道一万,一切都还要回到那个最朴素的问题:

医生到底用不用?有没有真正跨过那道实用门槛?

评测跑分高,只能说明模型能力上限不错,但更关键的是,在真实病历里,医生愿不愿意采纳、甚至愿意签字负责。

前面提到的91%采纳率,不是实验室指标,是真实诊室里的反馈——

这说明医生在日常工作中,已经用实际行动投了票。

讯飞医疗,已经拿到了这张信任票。

说实话,我个人的感觉是,这一轮医疗AI的变化,可能比很多人想象得更慢,但也更确定。

星火医疗大模型V3.5这次的落地,与其说是一次产品升级,不如说是让这个行业的分层开始变得肉眼可见

前面那种「大家都在做模型、谁也没拉开太大差距」的阶段,可能真的要过去了。

接下来会发生什么,其实不难想。

资源大概率会开始往少数已经跑通链路的玩家那里集中,比如真实临床数据、医院合作深度、医学人才密度,这些东西本来就不是可以快速复制的。

而另一边,那些还停留在「通用模型+轻量医疗适配」的玩家,空间会越来越被压缩。

倒不是谁不够努力,而是这个游戏开始变成另一种规则了:不是比谁更聪明,是比谁更早把闭环跑起来

说到底,大模型的下半场,比的可能真的不是「智能」,而是context。

而context这种东西,也挺现实的。

光靠训练堆不出来,开会喊口号更没用,它就得扎进真场景里,一点一滴磨出来。

谁先攒够,谁就有机会起飞。

讯飞医疗,下的便是这盘棋。

版权所有,未经授权不得以任何形式转载及使用,违者必究。