GPT-5.5凭借高效性能广受欢迎

GPT-5.5凭借高效性能广受欢迎 | AI生成和翻译

首页 2026.05

问题：为什么OpenAI的Codex with GPT-5.5在某些开发者群体中变得更受欢迎，有人声称它比Claude Code with Opus表现更好？

答案：

这是一个非常及时的话题。GPT-5.5由OpenAI于2026年4月23日至24日发布，因此这是一场非常新鲜且持续进行的辩论。以下是关于它为何越来越受欢迎以及它与Claude Code（Opus 4.7）实际对比的全面分析。

Codex中的GPT-5.5是什么？

GPT-5.5是OpenAI最新的前沿模型，旨在更快地理解你试图完成的任务，并自行承担更多工作。它擅长编写和调试代码、在线研究、分析数据、创建文档和电子表格、操作软件以及在任务完成前跨工具移动。你无需管理每一步，只需给GPT-5.5一个杂乱、多部分的任务，并信任它能规划、使用工具、检查工作、在模糊性中导航并持续推进。

为什么一些开发者更偏爱GPT-5.5 / Codex而非Claude Code

1. 令牌效率（实际成本更低）

这可以说是某些社区发生转变的最大原因。

在相同的编码任务上——相同的提示，相同的目标——GPT-5.5产生的输出令牌比Claude Opus 4.7大约少72%。如果你运行一个每天处理500个任务的编码代理，每个任务在GPT-5.5上平均消耗2000个输出令牌，那么同样的任务在Opus 4.7上大约需要7100个输出令牌。在当前的定价层级下，这种差异在规模化应用时会累积成每月数千美元的成本。

此外，GPT-5.5在实现与GPT-5.4相当的结果时使用的令牌显著更少，其Codex设置运行更快，并为大多数用户提供更高质量的结果。尽管GPT-5.5是一个能力更强的模型，但这些效率提升支持了慷慨的使用限制。

2. 速度

更少的令牌意味着更快的响应。GPT-5.5在等效任务上返回结果更快——既因为它生成的令牌更少，也因为其架构针对结构化输出进行了优化。在交互式工作流中，这种延迟差异是明显的。在完全自动化的代理管道中，它决定了吞吐量。

3. 代理与计算机使用能力

GPT-5.5在OSWorld-Verified上得分为78.7%，该测试衡量模型能否自主操作真实计算机环境。在针对复杂客户服务工作流的Tau2-bench Telecom上，它达到了98.0%。在Codex中，GPT-5.5可以承担从实现、重构到调试、测试和验证的工程工作。它生成文档、电子表格和演示文稿。结合计算机使用能力，它可以查看屏幕上的内容、点击、输入、导航界面并精确地跨工具移动。

4. 紧密的Codex生态系统集成

GPT-5.5在代理任务上确实具有竞争力，尤其是与Codex搭配时。Codex集成为GPT-5.5提供了沙盒执行的自然环境，这在模型需要运行代码、查看输出并迭代时至关重要。与在DIY设置中运行Opus 4.7相比，OpenAI生态系统中的反馈循环更加紧密。

5. 工程师的积极评价

测试过该模型的高级工程师表示，GPT-5.5在推理和自主性方面明显强于GPT-5.4和Claude Opus 4.7，能提前发现问题，并在没有明确提示的情况下预测测试和审查需求。一位提前获得访问权限的NVIDIA工程师甚至表示：“失去GPT-5.5的访问权限感觉就像我被截肢了一样。”

6. 广泛的企业采用

超过10,000名NVIDIAN员工——涵盖工程、产品、法律、营销、财务、销售、人力资源、运营和开发者项目——已经在使用由GPT-5.5驱动的Codex来实现他们所说的“令人震撼”和“改变生活”的结果。

Claude Code（Opus 4.7）仍然占优的方面

这绝非一面倒的故事。Claude Opus 4.7具备真正的优势：

Claude Opus 4.7在代理编码可靠性方面领先——包括SWE-bench性能、长任务指令遵循能力以及更大的上下文窗口。它倾向于在多步骤中保持任务连贯性，不会中途偏离或重新解释目标。当规格说明不明确时，它更可能提出澄清问题，而不是做出糟糕的假设——这在演示中可能令人烦恼，但在生产环境中却极具价值。

在基准测试的直接对比中，Opus 4.7在10项共享基准测试中的6项上领先，GPT-5.5在4项上领先，差距在2到13个百分点之间。Opus 4.7在GPQA、HLE、SWE-Bench Pro、MCP Atlas和FinanceAgent上领先；GPT-5.5在Terminal-Bench 2.0、BrowseComp、OSWorld和CyberGym上领先。

关于延迟：Opus 4.7流式输出第一个令牌大约需要0.5秒，而GPT-5.5的基线约为3秒。对于交互式界面，首令牌时间差距是主导变量。

GPT-5.5仍然存在OpenAI模型的特征模式：它会自信地完成一个任务，但结果可能微妙地错误。

定价对比（截至2026年5月）

	GPT-5.5	Claude Opus 4.7
输入（每百万令牌）	$5	$5
输出（每百万令牌）	$30	$25
上下文窗口	100万令牌	100万令牌

GPT-5.5在输出上贵约17%。OpenAI的卖点是GPT-5.5完成相同任务所需的输出令牌大约少40%，因此实际账单相比旧型号仅增加约20%——但你的计费仪表盘会告诉你这在实践中是否成立。

结论

决定取决于你的具体工作负载：Opus 4.7适用于可靠性要求高、周期长的任务；GPT-5.5适用于速度和OpenAI生态系统集成。

在一些开发者社区中对GPT-5.5的炒作是真实且合理的，针对特定用例——尤其是高吞吐量的代理管道、已经使用OpenAI技术栈的团队，以及原始速度和令牌效率最重要的任务。然而，Claude Code with Opus 4.7在编码基准测试可靠性和指令遵循连贯性方面仍然领先。没有哪个模型能“普遍获胜”——最佳选择在很大程度上取决于你的工作流程。

参考资料：

返回捐助