GPT-5.2 的小众批评

GPT-5.2 的小众批评 | AI生成和翻译

Home 2025.12

问题：关于 GPT-5.2 有哪些不受欢迎的观点？

回答：

GPT-5.2 是 OpenAI 于 2025 年 12 月 11 日至 12 日发布的 GPT-5 系列增量更新，市场反应褒贬不一。尽管它在某些基准测试（例如，长上下文推理、编码和专业任务）中表现出色，但发布后不久，用户、开发者和观察者中出现了一些不受欢迎或批评性的观点：

作为增量更新，它被过度炒作且表现平平：许多人认为它只是一个次要的“.2”更新，而不是一个突破性的飞跃，尤其是在对 Google Gemini 3 匆忙进行“红色代码”回应之后。批评者认为，它感觉像是成本削减或效率调整，却被伪装成重大进步，其性能提升无法证明其炒作或价格上涨（在某些情况下 API 成本增加了 40%）。
更严格的安全护栏和审查制度增加：一个普遍的抱怨是 GPT-5.2 更“安全至上”，拒绝了更多查询或在敏感话题上对用户说教，与 GPT-4o 等前身或 Gemini 3 Pro 等竞争对手相比，它的实用性或趣味性更差，后者能更开放地处理有争议的问题。
尽管在基准测试中获胜，但在实际任务中却令人失望：它在特定评估中表现出色（例如，AIME 2025 数学中获得 100%，SWE-Bench Pro 编码中得分很高），但在其他方面表现不佳（例如，SimpleBench，它落后于像 Claude 的 Sonnet 等旧模型）。用户报告称，它在直观理解、上下文保留或实际工作流程方面存在困难，感觉“更冷淡”，缺乏个性，或容易进行不必要的澄清。
不是最佳的综合模型：在一些爱好者中不受欢迎的说法是，Anthropic 的 Claude Opus 4.5 或 Google 的 Gemini 3 Pro 等竞争对手在日常聊天、前端开发或平衡推理方面表现更优，而 GPT-5.2 仅在小众专业/代理任务中“更智能”，但不是最可靠或最令人愉快的。
基准优化而非泛化：批评者认为，对基准测试进行大量的强化学习 (RL) 调优导致了较差的泛化能力，使其在经过测试的场景中表现出色，但在新颖或长期问题中却表现不佳。

这些观点与 OpenAI 将 GPT-5.2 定位为经济价值任务（例如，电子表格、代码、多步骤项目）的理想选择形成对比，但早期用户反馈强调了在可用性和自由度方面权衡所带来的挫败感。

参考文献：

https://openai.com/index/introducing-gpt-5-2/
https://arstechnica.com/information-technology/2025/12/openai-releases-gpt-5-2-after-code-red-google-threat-alert/
https://www.theverge.com/ai-artificial-intelligence/842529/openai-gpt-5-2-new-model-chatgpt
https://venturebeat.com/ai/gpt-5-2-first-impressions-a-powerful-update-especially-for-business-tasks
https://mashable.com/article/openai-gpt-5-2-vs-google-gemini-3-how-they-compare

Back Donate