企业选 Claude 还是 GPT 还是自研？我陪 3 个甲方走完了采购评审

去年 10 月到今年 3 月，我陆陆续续被三家甲方拉去当”采购顾问”。一家是南方某城商行，一家是头部零售连锁，一家是三甲医院的信息科。三家要解决的问题都不一样，但问题的起点居然一模一样——他们的 CIO 都在我面前摊开一张 Excel，上面列了 Claude、GPT-4o、Gemini、还有国产几个，问我：”这个分数表你看怎么打？”

我当时就懵了。因为那张 Excel 全是 MMLU、HumanEval、GPQA 这种评测分数。我跟他们说，这些分数你看看就行，真要决策，别用这张表。

三个场景，三种约束

城商行那家的问题是合规。他们的 AI 应用场景是信贷合同审阅和内部知识库问答。合规部门一开始直接把 API 出境这条路堵死了——客户数据不能出大陆。这就把直接调 Anthropic API 这条路干掉了一大半。但他们不想用国产模型，原因是总行那边做过压力测试，中文 OCR 后的长合同抽取，Claude 的准确率能到 91.2%，国产几家卡在 78% 左右。那 13 个点的差距在风控场景是没法忍的。

最后怎么办？走 AWS Bedrock 的新加坡 region + 数据脱敏前置。走这条路的成本比直连 API 贵 12% 左右，但合规评审委员会过了。

零售连锁那家要的是跑规模。他们有 2,300 多个线下门店，每天生成 40 多万条客服工单，想让 AI 自动分类 + 拟回复。这种场景对成本敏感到极致，每 1,000 条工单的处理成本差 $0.08 一年都是几十万的账。他们一开始铁定要上 GPT-4o-mini，我让他们做了个 A/B：同样 5,000 条真实工单，Haiku 4.5 跟 4o-mini 对跑一周。结果 Haiku 的人工复核通过率高了 6.7 个点，成本几乎持平。

医院那家反而最麻烦。HIPAA、等保三级、病历不出院这三条叠一起，直连 API 和 Bedcork 都走不通。最后他们选了私有化部署一个开源 70B 做一线分流 + 少量复杂病例走 Bedrock 海外 region 脱敏后调用。这是一套混合架构，我帮他们写了数据路由的决策树，实际落地的时候又改了 4 轮。

评分卡怎么打

我后来给这三家都用过同一张评分卡，六个维度，每项 10 分：

能力匹配度：不是看总分，看”在你这个具体任务上”的表现。建议自己拿 200 条真实数据跑一次。
成本：算 TCO，不只是 token 单价。包括工程接入、监控、返工、账单管理的人力成本。
合规：数据主权、审计日志、SOC2/HIPAA/ISO27001、DPA 条款、训练数据声明。
数据主权：数据存哪、训练用不用、删除机制、子处理方清单。
生态：有没有 SDK、MCP、工具链、社区案例。
本土支持：能不能找到人打电话骂，中文文档、账单开票、售后响应。

Claude 在我这三个客户里，能力、合规、数据主权三项都是最高分。Constitutional AI 这个机制在合规评审委员会那边意外地好使——银行风控部的一位老大哥原话是”这个训练方式至少能跟监管解释得清楚”。长 context（200K）在合同审阅场景直接碾压 32K 窗口的竞争对手，一份 180 页的并购协议可以一次喂进去，不用切片再拼接。

GPT 这边强在生态和多模态。Azure 那套企业合规也很齐。但 4o 以来对复杂 reasoning 的稳定性我个人觉得是下滑的，尤其是长链路任务。这个我跟甲方的技术组长聊的时候，他给我看他们的测试日志，一条复杂多步审核任务，GPT 会在第四五步开始飘，Claude 相对稳得多。这一点在 agent-sdk-production-deploy 那篇里我展开讲过。

本土支持这一项 Claude 是弱项。这事儿要承认。大陆没有官方商务团队，出问题只能在 Discord 和社区问。我给城商行做评审的时候，这项只给了 4 分。但他们最后还是选了 Claude+Bedrock，因为合规那几项硬指标加权后总分还是最高。

那个省 37.4% 的迁移案子

零售连锁那家最后从 OpenAI 全面迁到了 Claude。迁移周期 7 周，账单从平均每月 $48,210 降到 $30,180，省了 37.4%。这个数字不是吹的，我手里有账单截图。

省钱的来源三块：

一块是模型切换。他们原来 70% 的流量走 GPT-4o，30% 走 mini。迁移后 85% 走 Haiku 4.5，15% 走 Sonnet 4.6。Haiku 在他们的客服分类任务上跟 4o-mini 打平，但单价更友好。

第二块是 prompt 缓存。这个是 Claude 的杀手锏。他们的客服工单前缀是固定的系统 prompt + 公司知识库片段，每条工单这段加起来有 6,800 token。启用缓存以后这段 90% 走缓存读取，成本直接降到原来的 10%。具体怎么接我在 cost-bill-anatomy 讲过。

第三块是 Batch API。他们有一个每天凌晨跑的商品描述生成任务，迁到 Batch 以后这部分成本直接砍一半。cost-batch-api-50-off 那篇里的套路基本都用上了。

当时他们技术 VP 问我，省这点钱值不值得折腾 7 周。我算了笔账：一年省 $216,360，折合人民币 155 万。就算算上工程 3 个人月的投入，ROI 也是 5 倍以上。

什么时候自研才对

有一条线是我一直跟客户明说的：80% 的企业场景不应该自研基座模型。

但有 20% 的场景自研反而对。我见过三种：

第一种是极端低延迟。某量化交易团队要的是 10ms 内的决策辅助，任何 API 调用的网络抖动都受不了。这种只能自己 host 小模型。

第二种是完全离线场景。某军工类客户的研发环境是物理隔离的，连不了公网，连 Bedrock 都走不通。只能自己 host。

第三种是把 LLM 当作核心业务护城河。比如一个法律 SaaS 想靠”专有合同模型”拉开跟竞品的差距，那是得自己训。这种客户要想清楚，自研一个 70B 级别的垂类模型，年投入至少 2,000 万起步，团队要 15 人以上。搞不定就别上。

这个话题我在评医院那家的时候聊过很久。他们一开始想全自研，我拦下来了。理由是他们的 AI 团队当时 4 个人，再招 10 个也不够。现在他们走的是”基座用 Claude + 医学专有知识库通过 MCP 和 context-memory-long-term-agent 里讲的长期记忆方案注入”，效果跟全自研差不了多少，但工程代价低一个数量级。

最重要的一条

说白了，benchmark 分数是给媒体看的。真正决策的那张评分卡上，有一项在所有表格里都不会出现，但比什么都关键——“这个任务老板愿不愿意放手”。

银行那位 CIO 跟我说过一句话我一直记着：他说”同一个任务，如果 Claude 错了我能跟行长解释，GPT 错了我解释不清，那我就只能选 Claude”。这听着玄学，其实是信任度问题。Constitutional AI 的训练方式、Anthropic 的安全研究文化、长期的可解释性投入，在企业采购评审那个会议室里，比多考 2 分 MMLU 有用得多。

选型这事儿没有标准答案。你的约束决定你的选择。我上面讲的三个案子，银行选 Bedrock+Claude，零售选直连 Claude，医院选混合架构。三种答案，都是对的。

关于怎么把选型落地成跑通的产品，我还写过 mcp-security-best-practice 和 enterprise-governance-audit-log，治理那块的坑也不少，建议连着看。

写在最后
如果你正在做 AI 采购评审，别只看评分表。拿真实数据跑一次，找合规部门先聊一次，把"老板能不能睡好觉"这条加进评分卡。这三步走完，选型基本不会错。想看更多企业落地细节，翻翻企业实战分类下的其他文章。