Claude Opus 4.7 vs GPT-5.4 vs Gemini 3.1：2026 Q2 怎么选模型

Q2 这三个月我机器上同时挂着三家 API——Anthropic、OpenAI、Google。每次有新项目启动，我都会用这三家分别跑一轮同样的任务，看哪家合适就用哪家做主力，其余两家备着。

这篇文章不是那种”看完就能做决策”的权威指南——我也做不到，任何说自己能做到的人都是在忽悠你。不同场景、不同预算、不同风险偏好，最优解完全不一样。这里只讲我自己在 Q2 的真实使用感受，分六个场景讲，每个场景给一个倾向性选择，最后给一套混搭方案。

先把三家这季度的旗舰摆出来：

Claude Opus 4.7：Anthropic 最新，强在 Agent 和代码
GPT-5.4：OpenAI 在多模态和生态上追回来了
Gemini 3.1 Pro：Google 的长上下文 + 原生多模态还是最强

下面按场景拆。

场景一：写代码

这个我打得最多——过去三个月三家都让我写过中等复杂度的 Python/TypeScript 项目。

我的倾向：Claude Opus 4.7（但 Sonnet 4.6 性价比更高）

理由很简单：Claude 在”理解现有代码、做克制修改”这件事上依然领先。GPT-5.4 这一版在代码能力上有明显进步，尤其是复杂算法题，但它骨子里那个”爱自作主张重构”的毛病还在。我测试过一个场景——让三家在一个 3000 行的 repo 里加一个新接口，Claude 改了 4 个文件、GPT 改了 11 个、Gemini 改了 7 个。事后 review，GPT 改动里有 3 处是”顺手优化”和我本意相悖的。

Gemini 3.1 在代码上追得很快，单文件新代码生成和 Claude 差距不大，但涉及多文件的时候还是吃亏——它的”跨文件一致性”感觉差一层。

但！日常写代码别用 Opus。Sonnet 4.6 已经能覆盖 90% 的代码任务，Opus 贵好几倍但提升有限，除非你在做很复杂的架构设计或者调 bug 调不出来了，否则没必要。这块我在 Claude-Code 分类里有更详细的测评。

场景二：长文档处理

我的倾向：Gemini 3.1 Pro（但 Claude 紧咬着）

Gemini 的 2M token 上下文还是一骑绝尘的。但重点不是”能塞多少”——是它在长上下文里的召回率。我做过一个测试：200K 的文档里塞一个无关的”测试句子”，问三家”这段话在哪”。

Gemini 3.1 Pro：几乎 100% 能找到
Claude Opus 4.7：200K 范围内 95%+ 召回率，但超过 180K 开始下降
GPT-5.4：130K 之内不错，超过就明显掉

但 Gemini 有个问题是响应速度和稳定性。2M token 的请求单次要等 30+ 秒，偶尔还会 503。如果你是在线的、对延迟敏感的应用，可能还是 Claude 的 200K 更稳。

我现在的分工：批量处理大文档（比如审法律合同 PDF）用 Gemini，在线问答 / 交互式任务用 Claude。

场景三：多模态

我的倾向：GPT-5.4

这是 OpenAI Q2 追回来的主要领域。GPT-5.4 在图像理解、视频帧解析、音频转录这些任务上综合体验最好。尤其是图 + 文 + 代码的混合输入——给它一张 UI 截图加一段代码问”这个按钮对应哪里”，它的定位精度明显优于另外两家。

Gemini 3.1 的多模态本来有先发优势，但这个季度 GPT 更新之后，优势被抹平了一部分。Gemini 在视频理解上还是最强（能直接吃 1 小时视频做分析），但图像这块 GPT-5.4 开始反超。

Claude 的图像能力……说实话依然是三家里最弱的。Anthropic 这季度有更新，但重点是在 Agent 和代码，多模态优先级不高。给 Claude 一张复杂截图做 OCR + 理解，它做得到，但不如另外两家干脆。

场景四：推理

我的倾向：看题型

这事儿不能一概而论。三家在推理这块各有特长：

GPT-5.4 o 系列：数学竞赛题、形式逻辑题、需要”深度思考链”的场景最强。它那个”思考多久给结果”的参数调高之后，复杂题解答质量明显提升
**Claude Opus 4.7 (thinking mode)**：偏向”工程化推理”——解释代码、分析架构、做技术决策这类任务体验最好。它的思考过程可读性最好，便于 debug
Gemini 3.1 Pro：科学推理强，尤其是物理、化学、生物领域。猜测是训练数据里学术内容比例高

如果你是学生做题、科研人员算东西，GPT 或者 Gemini；如果你是开发者、产品经理做技术决策，Claude 的思考模式更顺手。

场景五：中文写作

我的倾向：Claude > GPT > Gemini

这个话题玄学，不同人感知差别很大，我只说我自己的感觉。

Claude 系列（Sonnet 4.6 和 Opus 4.7）的中文**最”不翻译腔”**。它写出来的东西有中文原生的节奏感——句子长短错落、转折词用得地道、不会动不动来一句明显是从英文结构翻过来的句子。

GPT-5.4 的中文比 GPT-4 时代好多了，但仔细看还是有”英文影子”。尤其是写长文章，段落结构偏英式——每段开头一个主题句，后面例证展开。这种结构严谨但不太像中国人写的。

Gemini 的中文最弱。不是说它错，是**过于”百度百科腔”**——工整、信息量足、但没有温度。让它写个人公众号风格的文章，出来的东西很 AI。

创意写作（小说、诗词、段子）我自己反而会用 GPT——Claude 太”认真”，不放飞。这是个反直觉的点。

场景六：Agent 任务

我的倾向：Claude Opus 4.7

Agent 这块 Anthropic 是真的下了功夫。Opus 4.7 在工具调用的稳定性、多步任务的一致性、遇到错误的恢复能力上都是最好的。

我做 Agent 项目这一年踩下来，最怕的不是”模型能力不够”，而是”模型在第 20 步突然忘记最初的目标”。Claude 在这个问题上明显比 GPT 和 Gemini 稳——可能是训练时对长程任务做了针对性优化。

GPT-5.4 做简单 Agent 没问题，但步数一多容易”偏航”。Gemini 的 Agent 能力在快速进步，但目前还不够稳定，我不敢把生产任务交给它。

如果你在做 Agent 产品，Opus 4.7 值得它的溢价。具体怎么搭 Agent 架构，我在 Agent 开发分类里写过四层架构拆解，感兴趣可以翻。

最后：我的 70/25/5 三档混搭策略

讲完场景讲策略。我自己现在的混搭比例大概是这样：

70% 用 Claude（Sonnet 4.6 为主，Opus 4.7 在关键任务）：日常代码、文档处理、Agent、中文写作
25% 用 GPT（GPT-5.4 和 o 系列）：多模态任务、数学 / 形式推理、创意写作
5% 用 Gemini（3.1 Pro）：超长文档批量处理、视频分析

这个比例不是算出来的，是一年试下来自然形成的。不同人比例会不一样——如果你主要做图像处理，GPT 占比可能反过来；如果你做学术，Gemini 占比更高。

为什么要混搭？两个原因：

**没有单一模型能”全能最优”**。把所有鸡蛋放一个篮子里，在某个细分场景一定会吃亏
单家 API 都会偶发挂掉。我 Q1 就遇到过 Anthropic 全球 1 小时的故障，如果你的生产系统只挂一家，那一小时就完蛋。手里有 3 家 key、路由层做好降级，可用性立刻拉满

怎么选哪个做主力？简单原则：把你花时间最多的那个场景对齐到最适合的那家。如果你 80% 时间在写代码，主力是 Claude；如果 80% 时间做设计分析图，主力是 GPT；如果 80% 时间审长合同，主力是 Gemini。

模型这事儿半年一变，这篇文章到 Q3 可能就要重写。AI 领域的一手动态我一般刷 news.cocoloop.cn，比看各种推文省事儿，推荐给大家。

🚀 想看更多模型选型实战？

本站持续跟进 Claude 家族最新动态和横向评测。想看完整的 AI 应用案例推荐去 www.cocoloop.cn，模型选型相关问答可以看 ask.cocoloop.cn。