GPT-5.2 的小众批评 | AI生成和翻译
问题:关于 GPT-5.2 有哪些不受欢迎的观点?
回答:
GPT-5.2 是 OpenAI 于 2025 年 12 月 11 日至 12 日发布的 GPT-5 系列增量更新,市场反应褒贬不一。尽管它在某些基准测试(例如,长上下文推理、编码和专业任务)中表现出色,但发布后不久,用户、开发者和观察者中出现了一些不受欢迎或批评性的观点:
-
作为增量更新,它被过度炒作且表现平平:许多人认为它只是一个次要的“.2”更新,而不是一个突破性的飞跃,尤其是在对 Google Gemini 3 匆忙进行“红色代码”回应之后。批评者认为,它感觉像是成本削减或效率调整,却被伪装成重大进步,其性能提升无法证明其炒作或价格上涨(在某些情况下 API 成本增加了 40%)。
-
更严格的安全护栏和审查制度增加:一个普遍的抱怨是 GPT-5.2 更“安全至上”,拒绝了更多查询或在敏感话题上对用户说教,与 GPT-4o 等前身或 Gemini 3 Pro 等竞争对手相比,它的实用性或趣味性更差,后者能更开放地处理有争议的问题。
-
尽管在基准测试中获胜,但在实际任务中却令人失望:它在特定评估中表现出色(例如,AIME 2025 数学中获得 100%,SWE-Bench Pro 编码中得分很高),但在其他方面表现不佳(例如,SimpleBench,它落后于像 Claude 的 Sonnet 等旧模型)。用户报告称,它在直观理解、上下文保留或实际工作流程方面存在困难,感觉“更冷淡”,缺乏个性,或容易进行不必要的澄清。
-
不是最佳的综合模型:在一些爱好者中不受欢迎的说法是,Anthropic 的 Claude Opus 4.5 或 Google 的 Gemini 3 Pro 等竞争对手在日常聊天、前端开发或平衡推理方面表现更优,而 GPT-5.2 仅在小众专业/代理任务中“更智能”,但不是最可靠或最令人愉快的。
-
基准优化而非泛化:批评者认为,对基准测试进行大量的强化学习 (RL) 调优导致了较差的泛化能力,使其在经过测试的场景中表现出色,但在新颖或长期问题中却表现不佳。
这些观点与 OpenAI 将 GPT-5.2 定位为经济价值任务(例如,电子表格、代码、多步骤项目)的理想选择形成对比,但早期用户反馈强调了在可用性和自由度方面权衡所带来的挫败感。
参考文献:
- https://openai.com/index/introducing-gpt-5-2/
- https://arstechnica.com/information-technology/2025/12/openai-releases-gpt-5-2-after-code-red-google-threat-alert/
- https://www.theverge.com/ai-artificial-intelligence/842529/openai-gpt-5-2-new-model-chatgpt
- https://venturebeat.com/ai/gpt-5-2-first-impressions-a-powerful-update-especially-for-business-tasks
- https://mashable.com/article/openai-gpt-5-2-vs-google-gemini-3-how-they-compare