Scale Labs AI 排行榜概览 | AI生成和翻译
https://labs.scale.com/leaderboard 页面是 Scale AI 的主要 Scale Labs Leaderboards 枢纽。它作为一个中央仪表板,展示专家驱动的基准测试,用于测试前沿 AI 模型、agentic capabilities、reasoning、coding、tool use、安全等方面。排行榜在 20 多个严格的、往往面向真实世界的基准上评估了来自主要实验室(OpenAI、Anthropic、Google、Meta 和开源贡献者)的 100 多个模型。
Scale Labs 专注于通过超出简单问答的任务挑战当前 AI 极限——强调 long-horizon agentic behavior、deep reasoning、honest/safe outputs、multimodal understanding 以及 professional-domain expertise。
Key Highlighted Benchmarks (as of March 19, 2026)
以下是一些突出的可用排行榜:
-
SWE Atlas - Codebase QnA SWE Atlas 套件的一部分(SWE-Bench Pro 的下一个演进)。 焦点:复杂真实世界代码库中的 deep code comprehension 和 reasoning。 代理必须探索 repositories、在 sandboxes 中运行代码、trace execution,并回答 natural-language questions,而不修改代码。 指标:Task Resolve Rate(完美满足每个 expert rubric item 的任务百分比)。 顶级模型得分仅 ~30–35%,表明这仍然非常困难。
-
MCP Atlas 通过 Model Context Protocol (MCP) 评估真实世界的 tool use。 涉及 1,000 个 human-authored tasks(500 个 public)、36 个 real MCP servers、220+ 个 tools,以及 multi-step workflows(每个任务 3–6 个 tool calls)。 测试 realistic tool discovery、sequencing、cross-server composition 和 conditional logic。 顶级性能:~62% pass rate(例如,Claude Opus 4.5)。
-
SWE-Bench Pro (Public Dataset) 在 public open-source repositories 中的 long-horizon software engineering tasks(bug fixes、features)。 编码代理的基础性、广受尊重的基准。
-
SWE-Bench Pro (Private Dataset) 类似任务,但是在 commercial-grade private/proprietary codebases 中——显著更难。
-
Humanity’s Last Exam(以及 Text-Only 变体) 处于人类知识前沿的极难问题。
-
SciPredict 预测真实科学实验的结果。
-
Professional Reasoning Benchmark(Finance 和 Legal) 领域特定的 professional reasoning tasks。
-
AudioMultiChallenge(变体:Audio Output、Text Output) 多轮 spoken dialogue systems。
-
Remote Labor Index (RLI) 衡量 AI 代理执行经济上宝贵的 remote work 的能力。
-
PropensityBench / MASK Safety & honesty benchmarks(模拟选择有害行为或撒谎的压力)。
-
VisualToolBench (VTB) / VISTA 多模态:对 visual information 的 reasoning 和交互。
-
MultiChallenge / MultiNRC 多样化的、跨学科的和 multilingual reasoning challenges。
-
EnigmaEval 复杂的 multi-step reasoning。
-
Fortress 前沿 risk evaluation,用于 national security 和 public safety(CBRNE、terrorism 领域)。
许多排行榜使用 percentage pass rates 或 resolve rates,带有 confidence intervals/standard deviations,排名通常纳入 statistical significance(例如,Rank Upper Bound)。
页面包含指向单个排行榜的直接链接、model rankings(顶级表现者如 gpt-5 variants、Claude Opus 4.x 等),以及通常指向 datasets(Hugging Face)、papers 或 announcements 的链接。它反映了 Scale AI 推动更现实、以结果为导向的 agentic AI 评估。
有关最新排名和完整细节,请直接访问主页面,因为 scores 会随着新 model releases 而演变。
References:
- Scale Labs Leaderboards Main Page
- SWE Atlas - Codebase QnA Leaderboard
- Scale AI Blog: Can Coding Agents Become Engineers? We’re Finding Out.
- MCP Atlas Leaderboard