Back to Blog

Claude Fable 5省钱秘诀来了:调成Low档比Opus更便宜

2026年6月11日

聪明人总能花最少的钱办最好的事,AI也一样。

就在大伙还在为Claude Fable 5两倍于Opus 4.8的token单价发愁时,反转来了——

不少开发者发现,把Fable 5的努力程度(effort)调到最低的low档之后,模型不仅没变弱,反而变得格外能打,token消耗也着实少了。

而且哪怕是最低档位,它在SWE-bench Pro上的得分依然压过Opus 4.8开到最强xhigh档的成绩——75.0对68.6。

(注:系统卡这组数据出自Mythos 5配置。Fable 5是加了安全分类器的公开版本,两者权重相同,编码任务基本不触发分类器)

不过,开low档省钱用好模型还只是故事的一半。

因为过去一天里,不少人发现,Fable 5的省钱未必只是因为开了low档。

在一些实际任务中,它甚至能做到效果更好、速度更快,最后账单还更便宜。

比如在GameBench的测试里,面对同一个蜘蛛吃虫子的小游戏任务,Fable 5不仅生成速度更快,效果也更好,而最终成本反而低于Opus 4.8。

(左边为Fable 5,右边为Opus 4.8)

这下。事情就有意思了。

原本大家还在纠结Fable 5贵了一倍,现在却发现,它不仅更强,很多时候甚至还更省。

贵是贵在单价上,省却省在最后的账单上,Fable5 low启动!

贵的模型怎么更省钱

那么,为啥明明更贵的模型反而更省钱呢?

毕竟,Fable定价每百万输入token 10美元、输出50美元,刚好是上一代旗舰Opus 4.8(5美元/25美元)的两倍。

对此,Claude Code之父Boris Cherny在Threads上解释了这笔账:

Fable每token的价格确实是Opus的两倍,但完成同一个任务平均用的token更少,因为它更聪明、更高效,在一些复杂任务上,Fable的实际花费反而低于Opus。

评论区也有网友表达了类似观点:

目前观察到的就是这样,单任务token更少,纠错动作更少,浪费的token也就更少。

换句话说,以前那些不够聪明的Agent,总会在写错了再改、跑挂了重跑的过程中疯狂烧token。

模型越笨,犯错次数越多,你就得多付一轮token的钱。

而Fable 5砍掉的,恰恰就是这部分隐性成本。

比如,Fable 5在shortcut的电子表格任务测试中,Fable 5在所有effort档位都跑赢了Opus 4.8,不仅回合数更少,整体完成速度还快了25%~30%。

再比如物理研究那条案例。

署名为Matthew Pines(CEO)的研究者表示,Fable 5是他们测过最强的前沿物理研究模型,仅用三分之一的推理token,就在36小时内跑到了GPT-5.5需要四天才能接近的位置。

当然,Fable比Opus更省更好也不是绝对的,具体还得看任务类型。

Reddit上也有网友反馈,在某些特定任务里,Fable确实会消耗更多token,但并没有外界想象得那么夸张,很大程度上取决于上下文长度和任务规模。

如果任务本身不复杂,其他effort档位甚至其他模型,也完全够用。

其实官方公告里也悄悄提到了这一点。

Anthropic在发布文章中提到,Fable 5相比以往Claude模型拥有更高的token效率。

他们给出的证据来自Cognition的FrontierCode评测。这套评测考察的是模型能否在达到生产级代码标准的前提下完成高难度任务,而Fable 5仅在medium档位,就已经拿下了所有前沿模型中的第一名。

所以,这套定价的正确打开方式或许不是看每token多少钱,而是看每干完一个活多少钱。

按前者算,Fable 5确实贵了一倍。

但按后者算,在足够复杂的任务上,它甚至可能比Opus还便宜。

不仅省,榜单这一块也被Fable 5扫完了

如果说更低的任务成本还属于见仁见智,那么过去一天多时间里各家评测榜单给出的结果就比较直接了:

Fable 5几乎把能拿的第一都拿了一遍。

先看综合能力。

在Artificial Analysis最新的智能指数中,Fable 5以64.9分排名第一,领先GPT-5.5约5分,榜单前两名全部被Anthropic包揽。

在人类最后的测试(Humanity’s Last Exam)上,Fable 5拿到53%的成绩,比第二名高出7个百分点以上。

再看Agent能力。

在arena.ai的Agent榜单上,Fable 5登顶榜首。

文本处理、网页开发等场景依旧保持领先。

在FrontierCode上也是第一。

SimpleBench上的表现则已经逼近人类水平。

除此之外,编程能力可能是争议最小的一项。

抛开Anthropic自己的数据之外,第三方评测机构TrueFoundry公布的结果显示,在SWE-Bench Pro上,Fable 5以80.3%的成绩拿到所有受测模型中的最高分,GPT-5.5在这一项上落后超过21个百分点。

Every的评测文章则给出了一个更直观的数字。

在他们最难的Senior Engineer基准测试中,Fable 5获得91分(满分100分),已经接近参与测试的人类资深工程师水平区间;作为对比,Opus 4.8得63分,GPT-5.5得62分。

One more thing

不过,在把Fable 5默认调成low档之前,还有两件事值得注意。

第一,Fable 5带着安全分类器上线。

涉及网络安全、生物化学、模型蒸馏等敏感请求时,系统会自动切换到Opus 4.8回答,并按照Opus价格计费。Anthropic表示,这类情况触发率不到5%的会话。

这也意味着,部分安全相关Benchmark上的成绩,公开版本未必能够完全复现。

第二,当前的免费使用窗口是限时的。

6月22日之前,Pro、Max、Team以及按席位计费的企业版用户都可以直接使用Fable 5;从6月23日起,将开始消耗用量积分。Anthropic表示,等算力容量跟上之后,会重新恢复为订阅权益。

另外,使用Fable 5需要开启30天数据保留,以满足安全监控要求。

参考链接
[1]https://game-bench.piccini.app/
[2]https://www.threads.com/@boris_cherny/post/DZYShwtkiJS/fable-is-x-as-expensive-as-opus-per-token-but-uses-less-tokens-on-average-to-do/
[3]https://arena.ai/leaderboard

版权所有,未经授权不得以任何形式转载及使用,违者必究。