为什么记忆这件事这么难先说个直观感受。人类聊天为什么不会失忆?因为我们有工作记忆(几秒到几分钟)、短期记忆(几小时到几天)、长期记忆(几年)。每种用不同的脑区,有不同的编码方式,大脑自动做 routing。
LLM 没有这套。它每次推理就是把你给的 context 从头到尾读一遍,context 之外的东西对它来说不存在。所以”长期记忆”在 LLM 语...
上个月我给一个做跨境电商的朋友做了个客服 bot,接 WhatsApp 和独立站两个入口,每天大概 3000-4000 轮对话。刚上线的时候我图省事,全部走 Sonnet 4.6——毕竟他们家客户问的问题挺杂,有退换货有物流追踪有产品咨询,我怕 Haiku 扛不住。
结果第一个月账单出来,$430。朋友当时没说什么,但我自己看着这个数字挺刷新的——一个...
一开始我真以为搓个 MCP server 得学一堆新概念。
看完规范以后预期是:至少要写个 transport 层、处理 JSON-RPC 路由、搞 capability handshake……结果打开 @modelcontextprotocol/sdk,发现核心代码也就十几行。40 行能出一个能用的 server。
这篇我按”我第一次做的时候希望有人...
两年前我刚开始在生产环境跑 Claude,第一个痛点就是 JSON 不稳定。
你在 playground 里跑 10 次都好好的,上线之后一天跑一万次,总有几十次它给你塞一句”Here is the JSON you requested:”开头,或者最后多个 markdown 代码块标记,或者引号没闭合,或者塞了个注释(JSON 是不允许注释的)。
那...
去年 10 月一个朋友在做 Fintech 的创业公司找我。12 人研发,Node 做 API 层,Go 做结算核心,每周 PR 60-90 个。他们之前招了一个 senior 兼职做 code review,一周 20 小时,后来这哥们跳槽了,招不到合适的接棒。
CTO 问我:「你觉得 Claude 能不能顶上?我们不是要 AI 取代人,我们是真的找...
这个项目是去年 7 月接的。客户是一家做 HR SaaS 的公司,服务中小企业,月活企业 1200 家左右,月工单稳定在 2847 张(我拉了 6 个月均值)。
找到我之前他们已经做过一版客服机器人,用的是 GPT 套壳加几十条 FAQ,用户一问两句就转人工,首响转人工率 57%。销售副总跟我说:「这玩意基本等于没有。我们还是得养 8 个客服。」
我做...
去年 10 月某个周五凌晨,我手机震了一下。Anthropic 的 budget alert:当日消费已超 $300。
我爬起来打开控制台,发现是一个长文档摘要 agent 跑飞了,进入了一个自我引用的死循环。每次调用都把前一次的输出塞回 context,越滚越大。跑了大概 4 小时,烧掉 $347.18。
后来做善后的时候意识到一个事:如果我在流式输...
Day 0:一切的起点三月底朋友拎着他们 SDR 团队的 sequence 来问我——三个月发了 14,228 封邮件,拿到 119 个 reply,换算 reply rate 0.84%。CEO 要他解释一下为啥这么烂。
我看了十分钟就知道问题在哪——他的六封邮件里,第 2、3、4 封全都是 just checking in 开头,只改了个称呼。SK...
去年 10 月到今年 3 月,我陆陆续续被三家甲方拉去当”采购顾问”。一家是南方某城商行,一家是头部零售连锁,一家是三甲医院的信息科。三家要解决的问题都不一样,但问题的起点居然一模一样——他们的 CIO 都在我面前摊开一张 Excel,上面列了 Claude、GPT-4o、Gemini、还有国产几个,问我:”这个分数表你看怎么打?”
我当时就懵了。因为...
去年八月我有一个客户项目,每天要处理 3000 多份 PDF 文档,做字段抽取。上线第一周账单直接给我整破防——一周烧了 $780。客户给的预算是一个月 $500,我算了下按这速度一个月得 $3300+,项目直接要赔钱。
那时候我正好看到 Anthropic 更新了 Prompt Caching 的文档,抱着试试的心态改了几行代码。改完跑了一天,第二天...
先说件真事,到现在我还有心理阴影。
上个月某个周四,我改了一个叫 code-summarizer 的 Skill,把输出格式从 markdown 改成了带前缀的结构化格式,想让下游更好解析。本地测了两个 case 觉得没问题,推了。
周五早上四个团队的人在群里炸了。他们有的工作流依赖这个 Skill 的 markdown 格式做正则提取,我一改,全挂。...
去年 11 月第一次看到 Batch API 的定价时我挺激动的:input / output / cache 全线五折。对一个月跑两三千刀 API 费用的小团队来说,这相当于免费续命。
当晚我就把一个批量打 tag 的脚本改成了 batch 模式,第二天跑完发现结果顺序全乱了,而且有 3.2% 的条目返回了莫名其妙的错误。调了两天...