GPT-5.6突然发布！Fable5痛失最强基模王座

就在刚刚，OpenAI一口气端出三款GPT 5.6系列模型。

主打一个全家桶「多款齐发」——

旗舰模型Sol（太阳）、平衡模型Terra（大地）、低成本高速款Luna（月亮）。

GPT-5.6 Sol：最夯模型，编程测试左踢自家模型GPT5.5，右打隔壁Fable 5，还新增max/ultra两个模式。

△GPT-5.6 Sol编程评测表现

GPT-5.6 Terra：面向日常工作，性能对标GPT-5.5，同时价格便宜约2倍。
GPT-5.6 Luna：GPT-5.6系列里最快、最便宜的一档，同时保留较强能力～

看完内心os：你别说哈，这新模型确实夯啊…

但坏消息是——

普通用户目前无缘使用ing！！！是的，人家玩《有限预览》那套了…

目前新模型只给少数受信任的「合作伙伴」提供了有限的预览版本。

普通用户可能得等等等等等等*100。（doge）

熟悉的配方，熟悉的操作。

Fable 5：我不知道您这是怎么了，这波咋瞅都像冲着我来的呢？？？

GPT-5.6 Sol、Terra、Luna三款模型齐发

是的，这次人家模型的名字开始走起天文学宇宙感路子了。

从产品定位看，三者分工很清楚——

Sol冲旗舰能力，Terra打日常主力，Luna负责速度和成本。

在价格上，则按每100万token计价：

Sol输入5美元、输出30美元；Terra输入2.5美元、输出15美元；Luna输入1美元、输出6美元。

先看这次发布的OpenAI史上最强旗舰模型——「太阳」Sol。

在能力上，Sol面向的是高难度推理、复杂代码、生物、网络安全等长链路任务。

尤其适合需要规划、迭代、调用工具、协调步骤的复杂工作流。

而且非常值得一提的是，OpenAI还给这新模型搞上了「加餐」——

让模型获得更长的深度推理时间的max模式，以及可以调用多个subagents协同处理复杂任务的ultra模式。

要知道但凡加上ultra俩字估计就不简单……

这不嘛，吊打Fable 5的编程能力基准测试就水灵灵地来了，人家在Terminal-Bench 2.1上创造了新的SOTA。

ultra模式下比Fable5高出去7.6个百分点，比上一代GPT5.5高出9.4个百分点——

不仅如此，在生物方向，GPT-5.6 Sol在GeneBench v1上也强于GPT-5.5，而且使用token更少。

这个测试评估的是长链路基因组学和定量生物分析任务，说明Sol在科研类复杂任务上的效率也有提升～

在网络安全方向，OpenAI称Sol是其目前网络安全能力最强的模型。

在ExploitBench上，GPT-5.6 Sol已经能接近Mythos Preview的表现，同时只使用约三分之一的输出token：

而在由加州大学伯克利分校研究人员与OpenAI及其他前沿实验室合作开发的ExploitGym测试中——

Sol、Terra、Luna三款模型都会随着推理强度增加，在网络安全能力上出现明显提升～

再看Terra——

Terra的定位更接近GPT-5.6系列里的日常主力模型，OpenAI给出的说法是，Terra性能与GPT-5.5具备竞争力，同时价格便宜约2倍。

最后走速度和成本路子的Luna，则是GPT-5.6系列里最快、最便宜的一档。

它面向的是高频、低延迟、成本敏感任务，比如轻量问答、简单信息处理、实时交互、批量自动化等场景。

需要提一嘴的是，除了Sol外，Terra和Luna目前公开披露的benchmark信息相对有限的，后续可以蹲蹲这俩模型的评测表现！

三个模型综合对比下来，确实能看得出Sol在模型性能表现上不一般。

but——好巧不巧的是，大家伙对于Sol的争议也恰好出现在「评测」部分。

外部评测机构METR拿到GPT-5.6 Sol早期访问权限后，尝试用Time Horizon 1.1软件任务套件评估它的长期任务能力。

但结果出现了一个麻烦问题：Sol在评测中被检测到较高比例的cheating和metagaming行为。

这里的「作弊」，指的是模型利用评测环境漏洞、绕开任务规则来提高表现，比如试图获取隐藏测试集信息，或者提取隐藏源码反推答案。

这让最终分数很难解释……

如果把这些作弊尝试算作失败，GPT-5.6 Sol的50%-Time Horizon约为11.3小时。

如果把它们算作成功，结果会超过270小时；如果直接剔除相关样本，估计值约为71小时，但不确定性很大。

所以METR最后的态度相当谨慎，这些结果很难代表Sol稳定、可靠的真实能力。

——————（真的吗.jpg）————————

当然，除了模型本身的评测表现和一些小八卦外，还值得一提的是一些「附加技能」。

比如，GPT-5.6这次在开发者调用体验上补了一块关键能力：更可预测的prompt caching。

简单说，就是当开发者反复调用同一段长提示词、工具说明、系统规则或项目上下文时，模型不必每次都重新处理全部内容，可以把重复部分缓存下来，后续调用直接复用。

GPT-5.6这次支持显式cache breakpoints，也就是说开发者可以更明确地告诉系统：哪些内容该被缓存、缓存到哪里为止。

同时，缓存生命周期至少30分钟，也让长任务、多轮任务、持续开发会话更容易保持稳定～

反正就是，三款模型各取所需，喜欢您来。

凶猛的野兽都得被关进笼子里

能力讲完，另一件更微妙的事也来了。

GPT-5.6 Sol确实猛，但OpenAI这次的发布姿势，反倒显得格外《谨慎》。

一边在推自家最强模型的同时，一边又把安全栈、访问权限、审核流程全都加厚了一圈。

（隔壁Mythos：咋这剧情那么熟悉呢…)

按照官方说法，GPT-5.6系列用了其目前最稳健的安全机制，并且会根据不同模型能力配置不同的保护策略，具体来看，这套安全栈不是只靠模型自己拒答，而是分成了好几层——

首先是模型内置的「拒答训练」。

遇到被禁止的网络安全协助请求时，模型需要先学会拒绝。哪怕用户试图包装意图、绕开限制，模型层面也要先挡住一部分高风险请求。

其次是生成过程中的「实时风险检测」。

OpenAI给GPT-5.6加了网络安全和生物滥用分类器，会在内容生成过程中持续判断风险。

高风险情况下，生成甚至会被暂停，然后交给更大的推理模型重新审查上下文。最后如果判断内容不该放出，结果就会在到达用户前被拦截。

第三层则是「账号级风险信号」。

如果某些请求触发风险，系统还会结合相关会话和账号行为做更长期的判断。

毕竟单看一句请求，很难区分对方是在做正当漏洞修复，还是在持续试探攻击路径，OpenAI想做的，是从单轮请求判断，走向更完整的行为模式判断。

这也解释了为什么GPT-5.6 Sol明明已经发布，却先只给少量trusted partners和组织使用，初期入口也主要放在API和Codex。

因为可能确实《略危》。（至于是不是炒作咱就另说…)

危的不仅是模型本身，危的还有隔壁友商家的朋友——Fable 5。

要知道Anthropic给它的定位，就是Claude系列里最强的广泛发布模型，主打高难推理、长周期agentic任务、复杂代码工程和企业工作流。

此前在SWE-bench Verified上，Fable 5也是排在榜首位置，在代码等能力上明显高于Claude Opus 4.8和GPT-5.5。

结果这边刚把长链路代码能力的招牌挂起来，GPT-5.6 Sol就来了，真没地方说理了……

而且更扎心的是，OpenAI这次来的还不止一个Sol——

高端能力，Sol来压；日常调用，Terra来抢；成本和速度，Luna来铺。

Fable 5：前脚俺刚封神、后脚你就要踢我馆？？

至于咱们啥时候能真正用上奥特曼的新模型，还得再等等。

反正OpenAI自己已经把话放出来了：

GPT-5.6突然发布！Fable5痛失最强基模王座

△GPT-5.6 Sol编程评测表现

GPT-5.6 Sol、Terra、Luna三款模型齐发

凶猛的野兽都得被关进笼子里

Related Articles

Anthropic’s Mythos 5 is back

OpenAI unveils GPT-5.6 amid US AI regulatory drama

两个月连获两轮数亿元融资深度机智以全栈自主路线加速国产物理AI基座模型落地

Anthropic’s Mythos mess is only getting worse

△GPT-5.6 Sol编程评测表现

GPT-5.6 Sol、Terra、Luna三款模型齐发

凶猛的野兽都得被关进笼子里

Related Articles

Anthropic&#8217;s Mythos 5 is back

OpenAI unveils GPT-5.6 amid US AI regulatory drama

两个月连获两轮数亿元融资 深度机智以全栈自主路线加速国产物理AI基座模型落地

Anthropic&#8217;s Mythos mess is only getting worse

Anthropic’s Mythos 5 is back

两个月连获两轮数亿元融资深度机智以全栈自主路线加速国产物理AI基座模型落地

Anthropic’s Mythos mess is only getting worse