企业选 Claude 还是 GPT 还是自研?我陪 3 个甲方走完了采购评审
去年 10 月到今年 3 月,我陆陆续续被三家甲方拉去当”采购顾问”。一家是南方某城商行,一家是头部零售连锁,一家是三甲医院的信息科。三家要解决的问题都不一样,但问题的起点居然一模一样——他们的 CIO 都在我面前摊开一张 Excel,上面列了 Claude、GPT-4o、Gemini、还有国产几个,问我:”这个分数表你看怎么打?”
我当时就懵了。因为那张 Excel 全是 MMLU、HumanEval、GPQA 这种评测分数。我跟他们说,这些分数你看看就行,真要决策,别用这张表。
三个场景,三种约束
城商行那家的问题是合规。他们的 AI 应用场景是信贷合同审阅和内部知识库问答。合规部门一开始直接把 API 出境这条路堵死了——客户数据不能出大陆。这就把直接调 Anthropic API 这条路干掉了一大半。但他们不想用国产模型,原因是总行那边做过压力测试,中文 OCR 后的长合同抽取,Claude 的准确率能到 91.2%,国产几家卡在 78% 左右。那 13 个点的差距在风控场景是没法忍的。
最后怎么办?走 AWS Bedrock 的新加坡 region + 数据脱敏前置。走这条路的成本比直连 API 贵 12% 左右,但合规评审委员会过了。
零售连锁那家要的是跑规模。他们有 2,300 多个线下门店,每天生成 40 多万条客服工单,想让 AI 自动分类 + 拟回复。这种场景对成本敏感到极致,每 1,000 条工单的处理成本差 $0.08 一年都是几十万的账。他们一开始铁定要上 GPT-4o-mini,我让他们做了个 A/B:同样 5,000 条真实工单,Haiku 4.5 跟 4o-mini 对跑一周。结果 Haiku 的人工复核通过率高了 6.7 个点,成本几乎持平。
医院那家反而最麻烦。HIPAA、等保三级、病历不出院这三条叠一起,直连 API 和 Bedcork 都走不通。最后他们选了私有化部署一个开源 70B 做一线分流 + 少量复杂病例走 Bedrock 海外 region 脱敏后调用。这是一套混合架构,我帮他们写了数据路由的决策树,实际落地的时候又改了 4 轮。
评分卡怎么打
我后来给这三家都用过同一张评分卡,六个维度,每项 10 分:
- 能力匹配度:不是看总分,看”在你这个具体任务上”的表现。建议自己拿 200 条真实数据跑一次。
- 成本:算 TCO,不只是 token 单价。包括工程接入、监控、返工、账单管理的人力成本。
- 合规:数据主权、审计日志、SOC2/HIPAA/ISO27001、DPA 条款、训练数据声明。
- 数据主权:数据存哪、训练用不用、删除机制、子处理方清单。
- 生态:有没有 SDK、MCP、工具链、社区案例。
- 本土支持:能不能找到人打电话骂,中文文档、账单开票、售后响应。
Claude 在我这三个客户里,能力、合规、数据主权三项都是最高分。Constitutional AI 这个机制在合规评审委员会那边意外地好使——银行风控部的一位老大哥原话是”这个训练方式至少能跟监管解释得清楚”。长 context(200K)在合同审阅场景直接碾压 32K 窗口的竞争对手,一份 180 页的并购协议可以一次喂进去,不用切片再拼接。
GPT 这边强在生态和多模态。Azure 那套企业合规也很齐。但 4o 以来对复杂 reasoning 的稳定性我个人觉得是下滑的,尤其是长链路任务。这个我跟甲方的技术组长聊的时候,他给我看他们的测试日志,一条复杂多步审核任务,GPT 会在第四五步开始飘,Claude 相对稳得多。这一点在 agent-sdk-production-deploy 那篇里我展开讲过。
本土支持这一项 Claude 是弱项。这事儿要承认。大陆没有官方商务团队,出问题只能在 Discord 和社区问。我给城商行做评审的时候,这项只给了 4 分。但他们最后还是选了 Claude+Bedrock,因为合规那几项硬指标加权后总分还是最高。
那个省 37.4% 的迁移案子
零售连锁那家最后从 OpenAI 全面迁到了 Claude。迁移周期 7 周,账单从平均每月 $48,210 降到 $30,180,省了 37.4%。这个数字不是吹的,我手里有账单截图。
省钱的来源三块:
一块是模型切换。他们原来 70% 的流量走 GPT-4o,30% 走 mini。迁移后 85% 走 Haiku 4.5,15% 走 Sonnet 4.6。Haiku 在他们的客服分类任务上跟 4o-mini 打平,但单价更友好。
第二块是 prompt 缓存。这个是 Claude 的杀手锏。他们的客服工单前缀是固定的系统 prompt + 公司知识库片段,每条工单这段加起来有 6,800 token。启用缓存以后这段 90% 走缓存读取,成本直接降到原来的 10%。具体怎么接我在 cost-bill-anatomy 讲过。
第三块是 Batch API。他们有一个每天凌晨跑的商品描述生成任务,迁到 Batch 以后这部分成本直接砍一半。cost-batch-api-50-off 那篇里的套路基本都用上了。
当时他们技术 VP 问我,省这点钱值不值得折腾 7 周。我算了笔账:一年省 $216,360,折合人民币 155 万。就算算上工程 3 个人月的投入,ROI 也是 5 倍以上。
什么时候自研才对
有一条线是我一直跟客户明说的:80% 的企业场景不应该自研基座模型。
但有 20% 的场景自研反而对。我见过三种:
第一种是极端低延迟。某量化交易团队要的是 10ms 内的决策辅助,任何 API 调用的网络抖动都受不了。这种只能自己 host 小模型。
第二种是完全离线场景。某军工类客户的研发环境是物理隔离的,连不了公网,连 Bedrock 都走不通。只能自己 host。
第三种是把 LLM 当作核心业务护城河。比如一个法律 SaaS 想靠”专有合同模型”拉开跟竞品的差距,那是得自己训。这种客户要想清楚,自研一个 70B 级别的垂类模型,年投入至少 2,000 万起步,团队要 15 人以上。搞不定就别上。
这个话题我在评医院那家的时候聊过很久。他们一开始想全自研,我拦下来了。理由是他们的 AI 团队当时 4 个人,再招 10 个也不够。现在他们走的是”基座用 Claude + 医学专有知识库通过 MCP 和 context-memory-long-term-agent 里讲的长期记忆方案注入”,效果跟全自研差不了多少,但工程代价低一个数量级。
最重要的一条
说白了,benchmark 分数是给媒体看的。真正决策的那张评分卡上,有一项在所有表格里都不会出现,但比什么都关键——“这个任务老板愿不愿意放手”。
银行那位 CIO 跟我说过一句话我一直记着:他说”同一个任务,如果 Claude 错了我能跟行长解释,GPT 错了我解释不清,那我就只能选 Claude”。这听着玄学,其实是信任度问题。Constitutional AI 的训练方式、Anthropic 的安全研究文化、长期的可解释性投入,在企业采购评审那个会议室里,比多考 2 分 MMLU 有用得多。
选型这事儿没有标准答案。你的约束决定你的选择。我上面讲的三个案子,银行选 Bedrock+Claude,零售选直连 Claude,医院选混合架构。三种答案,都是对的。
关于怎么把选型落地成跑通的产品,我还写过 mcp-security-best-practice 和 enterprise-governance-audit-log,治理那块的坑也不少,建议连着看。
如果你正在做 AI 采购评审,别只看评分表。拿真实数据跑一次,找合规部门先聊一次,把"老板能不能睡好觉"这条加进评分卡。这三步走完,选型基本不会错。想看更多企业落地细节,翻翻企业实战分类下的其他文章。
- 标题: 企业选 Claude 还是 GPT 还是自研?我陪 3 个甲方走完了采购评审
- 作者: Claude 中文知识站
- 创建于 : 2026-04-19 10:14:00
- 更新于 : 2026-04-20 15:22:00
- 链接: https://claude.cocoloop.cn/posts/enterprise-procurement-vendor-pick/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。