困住医疗AI的死循环，终于有国产玩家跑通了

        <p>在多项关键医疗测评上打败了GPT-5.5</p>                			<p><strong>「智能是平等的，但是context是不平等的。」</strong></p>

Sam Altman不久前说了一句话，大意是：智能终将像水电一样成为基础设施，人人都能调用。但他也指出，AI当前最大的瓶颈不在智能，在「context gap」——系统没法持续理解用户的真实场景。

a16z在今年3月的一篇分析里说得更直接：没有正确context的AI Agent，基本无用。

这两个判断叠在一起，恰好解答了一个困扰我很久的疑惑：

为什么有些很火的垂直赛道，迟迟未能形成马太效应？比如医疗。

AI发展到现在，通用大模型的格局已经很清楚了。头部三五家吃下绝大多数市场，后来者连牌桌都很难上。

强者恒强，几乎是常识。

但医疗偏偏是个例外。这条赛道热了好几年，上百家公司涌进来，论文一茬接一茬，评测榜单你追我赶。

可奇怪的是，似乎没有人真正拉开明显差距。为什么？

如果从context的角度进行思考，答案很可能是：

不是大家实力接近，恰恰相反，是因为整个行业卡在了同一个结构性死结里——

数据、模型、场景，三者的闭环断了。

闭环怎么断的

先说数据。

数据在医疗行业的角色有点像「萧何」，成也它，败也它。

看起来数据足够丰富，病历、影像、检验结果几乎无处不在，所以早期大家一窝蜂涌进来。

但真正进来之后才发现：数据确实不缺了，但没法直接用啊。

很多厂商手里的确有大量原始医疗数据，但由于缺乏专业的标准化治理能力，所以难以转化为有效训练素材。

说白了，专业的事交给专业的人。医疗数据的标准化处理，需要懂医学的人来干。

懂医学的人从哪来？

像DeepMind这样的顶级实验室还能自搭内部医学团队，但对大多数公司来说，他们往往只能依赖外部医学标注团队或医院合作方，通过「外包」来补齐能力缺口。

走外包当然没问题，问题是高质量的医学治理资源本身就是稀缺品，而且很难规模化复制。

通俗点，能接这种活的团队就那么多，排队都排不过来。

所以结果就变成：

原始数据看起来很多，但真正经过专业治理、能稳定喂进训练流程的，其实非常有限。

说到底，原始数据不等于context。没经过治理的数据，是噪音，不是信号。

△图片由AI生成

再说场景。

很多人的想法是，虽然高质量数据少了点，但只要把模型扔进真实环境跑起来，不就能持续获取新数据、形成数据飞轮了吗？

思路没错，但飞轮恰恰卡在了这一步。

问题出在产品形态。

绝大多数医疗AI产品仍停留在「问答助手」阶段，能回答问题，却无法深度嵌入医生的工作流。

一个问答机器人哪怕每天被问一万次，沉淀下来的也只是「用户问了什么、AI怎么答的」，而真正有价值的数据，来自诊疗过程本身——

医生如何诊断、如何开药、如何调整治疗方案，以及患者最终恢复得怎么样。

进不去这些核心环节，就拿不到有效增量数据。

拿不到有效增量数据，模型当然还能靠公开文献和语料继续「刷分」，但这种提升更多停留在知识层面，而非临床决策与工作流层面。

结果就是一个很矛盾的现象：评测很强，但医院里的实际使用频率并不高。

于是死循环形成了：

产品进不了临床→拿不到真实诊疗数据→模型迭代没有燃料→产品更进不去。

△图片由AI生成

而现实的发展轨迹，几乎就是这个循环的真实写照。

据动脉智库统计，截至去年5月，国内累计发布的医疗大模型已达到288个，仅半年就新增133个。但与模型数量的快速增长形成鲜明对比的是，行业整体渗透率仍不足10%～20%。

所以说，现在整个行业面临的困境是：不是智能不够，是context攒不起来。

而当一个系统既无法持续积累真实临床context，又无法嵌入真实决策流程时，这个死结，本质上就已经被写死了。

问题只剩下一个：

有没有人，能把它重新解开？

答案是：还真有

环顾四周，讯飞医疗刚发布的「星火医疗大模型V3.5」就这样进入了我的视野。

除了比较「新」这个因素外，它身上有两点瞬间吸引了我：

一是在多项关键医疗测评上打败了GPT-5.5，虽说有「主场优势」，但能和OpenAI如今最强的模型过招，至少说明模型底子没问题。

二是众所周知讯飞一直深耕医院场景，如果说有人有机会打破前面那个死循环，那么讯飞大概是最有可能的一个。

而接下来的资料，也印证了我的判断。

查完一圈发现，它和赛道里其他玩家明显不同的地方在于：不只是评测能打，而且是真落地了。

评测方面。IDC《中国医疗大模型技术评估，2026》综合实力行业第一，15项核心指标中12项领跑；MedBench智能体评测98.9分登顶；医疗知识问答、医疗语言理解、诊断治疗推荐、医疗文书生成、医疗多模态交互、医疗多轮交互等多项关键临床任务综合能力，超越GPT-5.5最高推理档（Extra High）。

不过说实话，评测第一在这个赛道不稀奇，毕竟榜单轮流坐庄，今天你第一明天他第一，大家早就看习惯了。

真正稀缺的，是评测成绩和临床价值能对上账。

而摆在我眼前的是这样几个数字：

在多家头部三甲医院的真实应用中，使用星火医疗大模型V3.5生成病历的医生采纳率达到91%，病历书写时间缩短52%。

翻译翻译，超过九成的病历医生看过能签字，一天下来就省出几小时。

影像端同样跨过了实用门槛，X线、MR报告生成的医生采纳率75%，质控达到专家会诊水准。

而这些，还只是我看到的，模型能力的冰山一角。病历内涵质控、智能用药审核、跨专科辅助诊断、居民端的体检报告解读和慢病管理——多个刚需场景都已经跑起来了。

在国内医疗大模型赛道，评测和临床两面同时对上账的玩家，目前屈指可数。

而讯飞医疗，至少已经用成绩站到了前排。

讯飞医疗的context是怎么攒起来的

但成绩单本身仍不是重点，重点是：同一个死循环，讯飞医疗凭什么跑通？

答案，依旧要回到context身上寻找。

而差距正在于context——讯飞医疗的context，不是天上掉下来的，是十年一步一步跑出来的。

十年下来，讯飞医疗已经构建起了一套「场景→数据→治理→模型→更广场景」的自强化循环体系。

它做的第一件事，是把场景铺到足够广。

不是挑几家医院做试点，是从基层卫生院到三甲医院到影像云平台的全域覆盖。

什么样才能称得上「全域」？看一组数字你就明白了：

目前讯飞医疗已经覆盖全国806个区县、7.7万余家基层医疗机构，累计辅助诊断超12亿次。同时携手600多家等级医院，其中包括50余家百强医院和7家十强医院。

这个覆盖密度，在行业里并不常见。

而且不是接入了就完事，病历生成、处方审核、影像初筛，这些产品是直接嵌进医生每天的工作流里的。

但光铺医院还不够，一个患者的就医过程，不是只发生在医院里。

现在大家遇到头疼脑热都习惯先在手机上问一问症状，如果拿不准可能会去小区诊所或基层卫生院做个基础诊断，严重一点再转到大医院做进一步诊疗，出院之后也没结束，还要做康复随访、慢病管理这些长期跟踪。

讯飞医疗的产品，刚好把这条链路从头串到了尾。

这意味着什么？

沉淀下来的数据，不是某一个环节的碎片，而是一条从「咨询→首诊→诊疗→康复」的完整context链。

这种东西，只做一个环节的玩家根本攒不出来。

居民端医院端左右开弓，场景一旦足够深入，数据就开始自然沉淀。

而沉淀下来的数据，就成了讯飞医疗最核心的一层壁垒。

日积月累下来，它目前已拥有16亿人次脱敏医疗语音数据、12亿次真实诊疗数据，再加上每天新增超过220万份语音、影像、病历等跨模态样本。

这种规模的真实医疗数据储备，已经很难在短期内复制。

△图片由AI生成

但光有数据量还不够。前面说了，原始数据不等于context，关键在治理。

讯飞医疗的数据治理，不是外包，是全职的医学专家团队在主导。

这一环是整个飞轮里最容易被低估的壁垒。

原始数据人人都有，但把数据变成context的能力，行业里极少数玩家具备。

有了高质量数据，这下终于可以训练出一个好模型了。

而在「训模型」这个步骤里，讯飞医疗有个动作很关键：从算力底座到模型训练，走通了国产化路线。

算力层面，星火医疗大模型V3.5基于昇腾910B全国产算力底座训练，率先在国产算力平台上跑通了DSA（动态稀疏注意力）和MTP（多Token预测）的长文本高效训练，推理吞吐量提升4.5倍。

对医疗这个相对敏感的行业来说，国产算力合规在今天已经不是加分项，而逐渐成为一项重要准入门槛。实践中，这也是政府端、医院端客户比较看重的一点。

最后一环，是从模型回到应用。

模型在面向医生和面向居民的两端同时落地应用，而医生端和居民端的双向协同，让飞轮多了一个加速器。

全部串起来，你将得到一个完整循环：

场景进入→数据沉淀→数据被治理成context→模型增强→再进入更深场景。

「原神，就此启动。」

AI医疗行业的马太效应，悄然出现了

到这里，我算是大概弄明白了讯飞医疗背后的运作逻辑。

看起来确实挺复杂，但往回一想，其实还是能用开头那句话说清楚：

智能是平等的，但context不是。

虽然「context」是近一两年才被大家广泛提及的概念，但讯飞医疗其实已经默默攒了十年，从最早铺场景、做数据治理、适配国产算力，到今天星火医疗大模型V3.5的全面落地——

这些事在当时未必有一个统一的名字，但回过头看，每一步都是在为严肃医疗的context的积累做准备。

每一环都需要时间，环环相扣。后来者即便在某个点上追上来，也很难同时补齐全部要件。

而这，恰恰就是马太效应开始形成的标志：

不是某次评测拿了第一，是一个完整的正向飞轮开始转动。

先跑通的人越转越快，没跑通的人还在死循环里打转。

△图片由AI生成

不过说一千道一万，一切都还要回到那个最朴素的问题：

医生到底用不用？有没有真正跨过那道实用门槛？

评测跑分高，只能说明模型能力上限不错，但更关键的是，在真实病历里，医生愿不愿意采纳、甚至愿意签字负责。

而前面提到的91%采纳率，不是实验室指标，是真实诊室里的反馈——

这说明医生在日常工作中，已经用实际行动投了票。

讯飞医疗，已经拿到了这张信任票。

说实话，我个人的感觉是，这一轮医疗AI的变化，可能比很多人想象得更慢，但也更确定。

星火医疗大模型V3.5这次的落地，与其说是一次产品升级，不如说是让这个行业的分层开始变得肉眼可见。

前面那种「大家都在做模型、谁也没拉开太大差距」的阶段，可能真的要过去了。

接下来会发生什么，其实不难想。

资源大概率会开始往少数已经跑通链路的玩家那里集中，比如真实临床数据、医院合作深度、医学人才密度，这些东西本来就不是可以快速复制的。

而另一边，那些还停留在「通用模型+轻量医疗适配」的玩家，空间会越来越被压缩。

倒不是谁不够努力，而是这个游戏开始变成另一种规则了：不是比谁更聪明，是比谁更早把闭环跑起来。

说到底，大模型的下半场，比的可能真的不是「智能」，而是context。

而context这种东西，也挺现实的。

光靠训练堆不出来，开会喊口号更没用，它就得扎进真场景里，一点一滴磨出来。

谁先攒够，谁就有机会起飞。

讯飞医疗，下的便是这盘棋。

困住医疗AI的死循环，终于有国产玩家跑通了

闭环怎么断的

△图片由AI生成

△图片由AI生成

答案是：还真有

讯飞医疗的context是怎么攒起来的

△图片由AI生成

AI医疗行业的马太效应，悄然出现了

△图片由AI生成

Related Articles

奥特曼也逃不过刷TikTok上瘾，Sora背后最抓马的一段来了

OpenAI前员工刚跑路就喊话：要套现就赶紧套，别等IPO！

李飞飞World Labs收购SceniX，物理AI训练正从“采数据”走向“造世界”

黄仁勋：不玩𝕏是我太内向，现在为AI必须站出来