SWE Atlas 代码库问答排行榜概览 | AI生成和翻译

Home 2026.03

SWE Atlas - Codebase QnA 排行榜,托管在 https://labs.scale.com/leaderboard/sweatlas-qna,是 Scale AI 的 SWE Atlas 基准套件的一部分。SWE Atlas 使用真实世界的复杂代码库,在专业软件工程任务上评估 AI coding agents。

Codebase QnA 专门衡量 deep code comprehension and reasoning ——在进行任何代码更改之前所需的上游技能。它测试 AI 代理理解和解释大型生产级软件系统行为的能力。

Key Features

Performance Highlights (as of March 2026)

即使顶级模型也面临重大挑战:

这比标准 SWE-Bench 任务明显更难(在 bug-fixing 上顶级模型可能超过 40–70%),表明深度、运行时感知的理解仍是一个主要挑战。

整体而言,SWE Atlas 包括三个计划中的排行榜(Codebase QnA 是第一个发布的;Test Writing 和 Refactoring 即将推出)。完整数据集在 Hugging Face 上公开可用:ScaleAI/SWE-Atlas-QnA。

References:


Back Donate