我上个月账单 2300 多美元,拆开看,Sonnet 4.6 占了 72%,Haiku 4.5 占 19%,Opus 4.7 只占 9%。这个比例跟一年前完全反过来——那会儿我还在迷信 Opus,什么活都往上堆,结果成本打到地板,很多任务 Sonnet 做得一样好。
这篇就讲讲怎么别犯我去年犯过的错。
2026 Q2 的真实价格先把数字摆出来,按百万 ...
给第一家公司做审计的那周,我在他们办公室蹲了五天。每天都像挖盲盒——每拉一条日志出来,心跳就加速一次。
最后交付那份 43 页报告,CISO 看完给我发微信,就一句话:”这比我想象的还糟。”
那家公司之后三个月把治理体系重搭了一遍。我根据在他们那儿以及后来两家的经验,整出这 8 条铁律。不是网上抄的 best practice,是我亲眼见过违反之后出事...
这事儿是我去年底帮一个法律科技公司做合同条款抽取时遇到的。他们要从合同里抽出 “甲方名称 / 乙方名称 / 合同金额 / 签订日期 / 违约条款” 这五个字段,然后入库。
我一开始写的 prompt 是很标准的 Markdown 风格:
12345678910111213## 任务从下面的合同文本中抽取指定字段。...
说一个让我自己有点尴尬的事。2023 年那会儿,我在公司内部做过一场分享,题目叫《Prompt Engineering 十二招》,里面讲的全是些”你是一个资深 XX””请一步一步思考””输出格式如下”这种现在看起来挺初级的东西。当时还挺受欢迎,后来这套 slides 还被隔壁部门借去讲过两次。
到了 2025 年下半年做 Agent 项目的时候,我突然...
做产品的都知道一个事:Claude 三个模型的单价差很大。Haiku 4.5、Sonnet 4.5、Opus 4.5 之间 input 价差大概是 1 : 3.75 : 18.75 这样。意思是一次 Opus 调用 = 18.75 次 Haiku 调用。
但大家看定价表经常陷入一个误区:以为便宜的模型就是性价比高。其实要看「每美元产生多少业务...
打开我自己任何一个 gmail 账户,点进 Promotions 那个 tab,90% 的邮件我都没打开过。这里面绝大部分不是垃圾邮件,是我真的注册过的产品、真的下载过的白皮书,但它们发错了时机、写错了主题、或者重复发了五封。这种东西不是内容问题,是序列设计问题。email-sequence 这个 Skill 不是一个文案生成器,它的重心在序列的骨架 ...
合规部门的同事第一次把我叫进会议室,是去年 11 月的事。那天他们摊开一份 32 页的 DPA 草稿让我看,问我一个问题:”你让我签字可以,但你先告诉我,这些 prompt 数据到底跑哪儿去了?”
我当时的回答是:”得看你走哪条路。”
然后我们就这一条路、那一条路讲了整整三小时。我后来意识到,很多技术团队在跟合规部门对接的时候,根本答不上来这个问题。不...
有一类争论在营销团队里永远存在:
甲:”这个按钮改成红色 CTR 能涨 20%。”乙:”你看人家 [大厂] 都是这么写的,照抄就对了。”丙:”按照 loss aversion 理论应该……”
甲代表数据直觉派——有什么数据跑什么,没数据就靠感觉;乙是传统套路派——大厂做什么我做什么,跟着 best practice 走;丙是行为科学派——一切决策从...
标题不是标题党,我是真的理解错了两次。而且每次都是踩坑踩出血才改认识。
我以为的 session 和实际的 session刚用 Agent SDK 那会儿,我对 session 的心智模型是这样的:一个 session 就是一坨对话历史的 JSON 数组,保存在 .claude/sessions/<id>.json,resume 的时候把它...
公司 AI 平台组的 lead 上个月让我写个技术选型报告。
背景:团队要推一批内部 MCP server 给各业务线用,后端组 Python 强、前端和 infra 组 TS 强,到底哪个语言做标准栈?lead 的原话是”别拍脑袋,给我跑数据”。
我搞了三天,用 TS 和 Python 各搓了一版同功能 MCP server(操作公司内部 GitLa...
这不是一篇通识文我不想再写第 874 篇”SEO audit 要做哪些事”的总纲文章——这种东西 Google 搜 “seo audit checklist”,第一屏已经给你 20 个版本。这篇是把我上个月接的一个真实项目从头到尾复盘一遍——项目代号 P-SaaS,客户化名”Nexflow”(做工单管理 SaaS,ARR 大概 $4M 级别),三月掉流...
三月底的时候 Anthropic 悄悄发了一版 Agent SDK 1.4,配套文档里第一次把”四层架构”写进去了。之前大家做 Agent 基本都是野路子——谁有经验谁按自己理解搞,抽象到底该切几刀、每刀切在哪儿,全凭个人品味。
我过去一年接过三四个 Agent 项目,踩过的架构坑可太多了。有个项目一开始把工具调用、Prompt 组装、状态管理全塞在一...