去年十月我接了个活儿:从一批医疗器械注册文件里抽取 14 个字段。文件结构乱、术语杂、有中文有英文。我一开始用 markdown 写的 prompt,测完一批,准确率 74%。
改天心血来潮,把同一个 prompt 的分区从 ## 文档内容 改成 <document>...</document>、## 抽取要求 改成 <i...
一个 187K token 的惨痛教训去年九月接了一个保险行业的 AI 客服项目。甲方最开始那位产品经理的原话我到现在记得——“Claude 不是有 200K 窗口吗?那我们所有保单条款、历史对话、用户档案,全塞进去,让模型自己找答案。”
我当时就懵了一下,但没反驳。毕竟客户是上帝嘛,先跑一版看看。
跑了一周测试集,F1 从基线的 0.76 掉到了 0...
上周给一个做法律 AI 的客户 review 线上代码,看到他 system prompt 里塞了足足 850 个字。开头是”你是一个专业、严谨、客观、富有同理心且极其注重细节的法律助手”,后面跟了两段职业操守、三段风格要求,还夹了一条”请确保你的回答准确无误”。
user 那边呢?就一句:”请帮我分析这份合同的风险点。”然后把合同全文贴上去。
我看完...
我第一次知道 Anthropic 这家公司,是 2021 年夏天。那会儿朋友圈有人转过一张图,说 OpenAI 安全团队的核心十几个人集体离职了,领头的是个叫 Dario Amodei 的意大利裔研究员,他妹妹 Daniela 跟他一起走。当时我没在意,觉得不过是硅谷又一次常规的团队分裂。
后来 ChatGPT 火了,我被推着去试了 GPT-3.5,然...
Q2 这三个月我机器上同时挂着三家 API——Anthropic、OpenAI、Google。每次有新项目启动,我都会用这三家分别跑一轮同样的任务,看哪家合适就用哪家做主力,其余两家备着。
这篇文章不是那种”看完就能做决策”的权威指南——我也做不到,任何说自己能做到的人都是在忽悠你。不同场景、不同预算、不同风险偏好,最优解完全不一样。这里只讲我自己在 ...
第一次用 Claude Code 的时候,我根本不知道 CLAUDE.md 是干啥的。项目根目录莫名其妙多了个文件,我以为是 Claude Code 的缓存,还一度想把它丢进 .gitignore。
后来在一次协作翻车之后我才意识到这东西有多重要。那次的情况是:我和同事在同一个 repo 里协作,我本地跑 Claude Code 改一个接口改得风生水起...
三月底的时候 Anthropic 悄悄发了一版 Agent SDK 1.4,配套文档里第一次把”四层架构”写进去了。之前大家做 Agent 基本都是野路子——谁有经验谁按自己理解搞,抽象到底该切几刀、每刀切在哪儿,全凭个人品味。
我过去一年接过三四个 Agent 项目,踩过的架构坑可太多了。有个项目一开始把工具调用、Prompt 组装、状态管理全塞在一...
前两周我跟一个做 Agent 产品的朋友吃饭,他甩给我一句话:”MCP 不就是 Function Calling 换了个皮吗?我们已经有 tool use 了,整这个 MCP 协议是 Anthropic 在刷存在感吧。”
我当时嘴里正嚼着东西,差点呛住。这误解在开发者圈里太常见了,甚至连一些写过相关代码的人也会这么觉得。但如果你真的在生产环境里把两种方...
这个项目的起因特别真实——我老婆是她们公司市场部负责人,某天晚上她一边改文案一边叹气:”这个实习生又把 B 端产品的官网 banner 写成了小红书卖货文案的语气,产品经理又发火了。”
我随口问了一句:”你们公司没有品牌 tone & manner 手册吗?”
她一脸苦笑:”有啊,一份 40 页的 PDF。谁会每写一条文案就翻一遍?”
就这一句...
这事儿是我去年底帮一个法律科技公司做合同条款抽取时遇到的。他们要从合同里抽出 “甲方名称 / 乙方名称 / 合同金额 / 签订日期 / 违约条款” 这五个字段,然后入库。
我一开始写的 prompt 是很标准的 Markdown 风格:
12345678910111213## 任务从下面的合同文本中抽取指定字段。...
去年八月我有一个客户项目,每天要处理 3000 多份 PDF 文档,做字段抽取。上线第一周账单直接给我整破防——一周烧了 $780。客户给的预算是一个月 $500,我算了下按这速度一个月得 $3300+,项目直接要赔钱。
那时候我正好看到 Anthropic 更新了 Prompt Caching 的文档,抱着试试的心态改了几行代码。改完跑了一天,第二天...
说实话这事儿是被运营部门逼出来的。
我们公司有个内部订单系统,MySQL 库里挂着几千万行数据。运营组的小姑娘几乎每天都要问技术:”帮我查一下昨天 XX 渠道的退款单数””帮我拉一下 3 月 GMV 按城市分组”。一开始还好,后来一天能来十几次,我们这边排期排不过来,她那边也急,经常下班前还在等一张报表。
上个月我心一横,花了一个下午给她搭了个 MCP...