Haiku 4.5、Sonnet 4.6、Opus 4.7 到底怎么选

我上个月账单 2300 多美元，拆开看，Sonnet 4.6 占了 72%，Haiku 4.5 占 19%，Opus 4.7 只占 9%。这个比例跟一年前完全反过来——那会儿我还在迷信 Opus，什么活都往上堆，结果成本打到地板，很多任务 Sonnet 做得一样好。

这篇就讲讲怎么别犯我去年犯过的错。

2026 Q2 的真实价格

先把数字摆出来，按百万 tokens 计：

注意这里有几个坑，我去年是一个一个踩过的：

输出永远比输入贵 5 倍。这意味着如果你让模型写长文，成本主要花在输出上。我帮一个朋友算过，他让 Opus 输出 10 万 tokens 的研报，光一次就是 7.5 美元，一天跑 20 份就是 150 刀，一个月 4500 刀——然后他发现 Sonnet 跑出来的东西他客户根本看不出差别。

Opus 是 Sonnet 的 5 倍。不是”稍贵一点”，是 5 倍。这个倍数值不值你得算一下。

缓存 token 单独计价，这个很多人不知道，我专门写过一篇 prompt caching 深度指南，上下文重复度高的场景能省 80% 以上。

我在 us-east-1 附近的 VPS 上用同一段 2000 字中文输入做 streaming 压测，20 次取中位数：

Haiku 的 1100 tok/s 是什么概念？一个 500 字的中文回答，它 0.5 秒就输出完了，比你眨眼慢一点。这就是为什么我把所有”用户界面里要让人感觉没延迟”的交互都挂 Haiku。

Opus 的 230 tok/s 慢吗？慢，但它做的事一般值得等。我让它分析一份复杂合同，等 8 秒出一段推理清晰的判断，我愿意等。如果同样的活让 Haiku 做，它可能 1 秒给我一段但结论是错的——那就没意义。

我自己画了一棵树，给团队新人讲过好多次，大致这样：

第一问：这个任务错了会怎样？

第二问：这个任务每天跑多少次？

第三问：用户在等结果吗？

这套问下来 90% 情况能定。剩下 10% 是边界案例，比如”每天跑几千次但每次都很重要”，这种我一般会用 Haiku 路由再向上 fallback 的方案——先让 Haiku 判断难度，难的才交给 Sonnet 或 Opus。

我手里几个活的的比例，给你做参考：

客服机器人（日均 8 万次对话）：Haiku 90%，Sonnet 10%（遇到 Haiku 判断不了的升级路由）。Opus 0%，完全用不上。

合同审查工具（日均 30 份）：Sonnet 60%，Opus 40%。重要条款和有争议的部分交给 Opus，一般条款 Sonnet 搞定。

我用 Sonnet 当日常生产力主力的内容生成管线（日均 200 篇）：Sonnet 95%，Opus 5%（只有长篇深度文章会用 Opus）。

内部 RAG 知识库问答（日均 3000 次）：Haiku 70% 做初筛和简单问答，Sonnet 30% 做复杂推理。

加起来的综合比例就是我前面说的 Sonnet 72% / Haiku 19% / Opus 9%。Sonnet 4.6 确实是 2026 年的主力驮马。

坑一：别用 Opus 做简单翻译。我早期把 Opus 当万能钥匙用，翻译几百字的产品说明都上 Opus，一个月多花 400 多美元。换成 Haiku 之后质量基本没降。

坑二：别用 Haiku 做多步推理。去年我图便宜让 Haiku 做一个”读完合同→提取条款→判断风险→输出报告”的四步任务，结果第二步之后的上下文它就开始忘，最后给出的风险判断全是瞎说。这种活交给 Sonnet 稳得多。

坑三：Opus 不是任何时候都比 Sonnet 强。在我做过的一批代码审查任务里，Sonnet 4.6 的表现反而比 Opus 4.7 更一致——Opus 偶尔会想得太多，加一堆用户没问的建议。

如果你刚上手，别纠结这个选择。先所有任务都丢给 Sonnet 4.6，跑两周看账单和效果。然后把账单里贵的那几个任务挑出来：

不要一上来就做复杂的路由方案，先用最简单的规则跑顺了再优化。

想系统学 Claude？

已经选定了模型，下一步可以看15 分钟跑通第一个 API 请求。要把成本再打下来一半，Haiku 路由降本实战这篇是我项目里真的在用的方案。把 Sonnet 的日常用法榨干，可以接着看Sonnet 日常生产力主力的 20 种用法。