Claude Sonnet 4.6 凭什么成了我日常默认模型？三个月真实账单复盘

说实话，去年这个时候我对 Claude 其实挺无感。那时候大家都在 ChatGPT 和 Gemini 里左右横跳，偶尔听到有人吹 Claude 的长上下文，我点进去试两下，觉得也就那样，就又退回 GPT-4 了。

真正让我切过来的契机挺偶然——春节前那阵我在做一个合同解析的私活，原始 PDF 塞进 GPT 之后它经常胡说八道，把”甲方”和”乙方”认反，把日期从 2024 改成 2023。我当时快崩溃了，抱着死马当活马医的态度把同样的东西丢给 Sonnet 4.6，结果它不仅读对了，还主动指出了合同第 14 条的一个歧义条款。

从那天开始，我把 API Key 环境变量换了过来，到现在三个月整。这篇文章不想讲模型参数、跑分榜单——那些东西知乎和 X 上已经写烂了。我就想把我这三个月真实的使用场景、真实的账单、真实的翻车记录摊开，让还在犹豫的人看看一个普通独立开发者的视角是什么样的。

一、先把账单摊开：三个月花了多少钱

很多文章讲”性价比”讲得天花乱坠，但从来不给具体数字。我给你看我的：

1 月：$43.20，主要是合同解析那个项目收尾
2 月：$78.50，开始做一个小型的内容生成工具
3 月：$112.30，加上了日常 coding 辅助和少量的 Agent 实验

合计 $234 出头。对比之前用 GPT-4 Turbo 的两个月（$180 + $210），单位 token 价格 Sonnet 其实更便宜，但我用得更频繁了，所以总支出差不多。

关键不是省没省钱，关键是同样的钱做完的活更多、更稳。GPT-4 时代我有一半的钱是花在”重试”上——回答不对，再问一遍；格式错了，再要一遍 JSON。切到 Sonnet 之后，一次过的比例大概从六成涨到了八成五，这才是实际省下来的东西。

二、为什么是 4.6，不是 Opus、也不是 Haiku

Anthropic 家族现在三档模型：Opus 4.7、Sonnet 4.6、Haiku 4.5。一个很常见的新手困惑就是——既然都是一家的，我直接用最强的 Opus 不就完了？

答案是：你大概率不需要 Opus。

我试过一个月把默认切成 Opus，结果账单直接翻了三倍，但真正需要 Opus 才能搞定的任务不到 5%。Sonnet 4.6 的能力已经覆盖了我 90% 以上的场景——写代码、改文档、分析数据、做结构化抽取、甚至一些轻量级的推理任务。

Haiku 4.5 是另一个极端，它便宜到几乎不计成本，但处理稍微复杂一点的多轮对话就容易丢线索。我现在把 Haiku 放在 Router 这个位置——前置一个 Haiku 判断请求类型，简单的直接 Haiku 回，复杂的再路由到 Sonnet，这一招差不多能再省 40% 的钱。这个路由策略的细节我后面会单开一篇讲，这里就先点一下。

Sonnet 4.6 卡在中间这个位置，是典型的帕累托前沿——再往上 Opus 贵 5 倍但提升只有 15-20%，再往下 Haiku 便宜 5 倍但能力掉 30% 以上。这就是为什么它适合做日常默认。

三、我实际在用的场景，以及每个场景的坑

下面这些是我真实用 Sonnet 4.6 干的事情，按使用频率排序：

1. Coding 辅助（占比约 40%）

这是最大头。我日常用 Claude Code 做 CLI 编程助手，它对 Sonnet 4.6 的工具调用做了专门的优化。比起之前在 Cursor 里用 GPT-4，最大的区别是它不乱改你的代码——GPT-4 有时候会自作主张把你没让它动的函数重写一遍，Sonnet 4.6 会老实地只改你指定的地方。

唯一的坑是：你得给它足够的上下文。不给 CLAUDE.md（项目级的约定文件），它就会按照它自己理解的”最佳实践”来写，有时候和你项目的风格不符。这个坑值得单独写一篇，这里先给个参考链接。

2. 文档和长文处理（占比约 25%）

200K token 的上下文是真香。我经常把整个项目的文档、代码、issue 一股脑喂进去让它分析。GPT-4 那 128K 用起来总要斟酌”哪些重要哪些能砍”，Sonnet 4.6 基本可以粗暴地 “all in”。

翻车记录：一次性塞 180K 的时候，它有时候会”偷懒”——前半部分读得很细，后半部分明显不如前面深入。解决办法是用 Prompt Caching，把大段不变的上下文缓存下来，每次只动态拼动态部分。成本立刻降到 1/10，效果反而更好（因为模型每次只处理变化的部分，注意力更集中）。

3. 结构化数据抽取（占比约 20%）

合同、简历、发票、邮件——这些非结构化文本转 JSON 的任务，Sonnet 4.6 做得特别稳。我的经验是：

一定要用 XML 标签分隔输入和指令。Claude 家族对 XML 的识别度比 Markdown 好得多
Few-shot 给 2-3 个例子就够了，再多没意义甚至副作用
输出 Schema 直接用 Tool 定义，不要让模型自由发挥 JSON

4. 日常问答和写作（占比约 15%）

这块其实和 GPT 没有特别大的区别。稍微有点感觉的是 Sonnet 4.6 的中文表达更”自然”一点，GPT-4 的中文总有种”翻译腔”。但这个事儿很玄学，不同人感知不一样。

四、说点实话：它不是没有缺点

写到这里如果我只说好话，那就太像广告了。Sonnet 4.6 真实的缺点也列一下：

联网搜索是痛。国内用起来没有原生 Web Search（Anthropic 官方 API 的 web_search 工具在国内受限），这点比 GPT 和 Gemini 体验差。我的解决办法是接一个 Perplexity API 做 MCP Server
图片理解不如 Gemini。处理截图、做 OCR 这类任务，Gemini 3.1 Pro 明显更强
**创造性写作偶尔过于”理性”**。要它写小说、写诗词这种需要”放飞”的内容，感觉比 GPT 拘谨
延迟。Sonnet 4.6 不是最快的，对实时交互要求高的场景（比如 voice agent）Haiku 更合适

五、给还在犹豫的人一句话

如果你的主力场景是写代码、处理长文档、做结构化任务，Sonnet 4.6 几乎是目前性价比最高的选择，闭眼切。

如果你主要干的是聊天机器人、创意写作、实时语音，那继续留在 GPT 或者试试 Gemini 可能更好。

最好的办法其实是——同时保留两家的 API Key，按场景用不同的模型。我现在就是 Sonnet 做主力、GPT 备着、Haiku 打杂，一个月总账单还比只用 GPT 的时候低。

下一篇我会展开写怎么用 Haiku 做 Router 砍账单，有兴趣的可以关注一下，或者先去知识地图翻翻其他内容。

🚀 想了解更多 Claude 实战？

本站持续更新 Anthropic Claude 的深度中文指南。想要获取一手 AI 新闻，可以访问 news.cocoloop.cn；想看更多 AI 应用案例，可以访问 www.cocoloop.cn。