跳到主要内容

SWE-bench 家族

SWE-bench 怎么演进到 Pro、Multilingual、Multimodal,以及如何识别数据污染

核心要点

  • SWE-bench: GitHub issue 修复 + 测试判定
  • Verified:人工筛选 500 个可靠子集
  • Pro:私有仓库切断数据泄露
  • Multilingual/Multimodal 扩展语言与视觉
  • 数据污染是核心隐患

本文讲 coding agent 主流评测家族。纯 CLI 与长 horizon 评测见 03-终端与长horizon评测,饱和困境见 04-可观测与成本度量

SWE-bench 怎么评 coding agent?

核心问题:怎么客观判断一个 agent 会不会改真实代码?

给 agent 一个真实 GitHub issue,让它改代码,用仓库自带的测试套件判定是否解决[1]。SWE-bench 原版有 2,294 个 Python 仓库实例,主指标是 %Resolved(相关测试由失败转通过)。

这个"issue + 测试验证"范式是家族的共同基础——它的优势是客观(测试通过就是通过)、贴近真实开发。发布时 Claude 2 仅解 1.96%,可见任务之难。下面的变体都在这个骨架上解决不同问题。

为什么需要 Verified 和 Pro?

核心问题:原版 SWE-bench 有什么不可靠之处,要派生新版本?

原版有数据污染和任务噪声两个问题,Verified 解噪声、Pro 解污染[2]

  • 数据污染:原版 94%+ 实例早于主流模型训练截止,顶级模型在原版得 70%+、在抗污染版本仅 23%,相差约 47 个百分点。
  • SWE-bench Verified: OpenAI 联合人工筛选 500 个实例,确保问题清晰、测试正确、确实可解,去掉任务噪声。
  • SWE-bench Pro: 1,865 个实例含 18 个商业私有仓库,从根本切断训练数据泄露;任务需工程师数小时到数天,在切断泄露的商业私有集上最强模型 Pass@1 也仅约 17.8%[2]

可借鉴的判断:看 coding agent 分数要认版本——原版的高分可能含污染水分,Pro 的低分才接近真实工程能力。

Multilingual 和 Multimodal 测什么?

核心问题:只测 Python 文本够吗?

Multilingual 测跨语言能力,Multimodal 测含图问题,两者都暴露能力不均衡。SWE-bench 原版只有 Python 纯文本,这两个变体扩展了维度。

  • SWE-bench Multilingual: 300 个实例覆盖 9 种语言;同一 agent 在 Multilingual 上总分仅约 43%,Go/C++ 约 29%,语言能力分布不均衡。
  • SWE-bench Multimodal: 617 个实例(17 个 JS 库),问题含图片[3];在原版强的模型这里退步,语言无关架构反而领先。

可借鉴的判断:单一 benchmark 的高分不代表全能——换语言、换模态,能力分布可能大不相同。

数据污染有多严重?

核心问题:"测试集泄漏到训练集"对评测的影响有多大?

污染能让分数虚高几十个百分点,是 static benchmark 的根本隐患[2]。前面提到的原版与抗污染版本 47 个百分点的差距,主要就来自污染。

污染的本质是测试样本在训练时已被模型见过,于是"解题"退化成"回忆"。这驱动了 Pro 用私有仓库的设计——见不到就无法回忆。污染的系统性分析与检测方法见 04-可观测与成本度量 的饱和讨论。可借鉴的原则:评测的可信度取决于测试集对模型的不可见性

Takeaway

知识点核心结论
评测范式GitHub issue + 仓库测试套件判定 %Resolved
Verified人工筛 500 个清晰可解实例,去任务噪声
Pro私有仓库切断泄露,商业私有集最强约 17.8%
Multilingual/Multimodal跨语言/含图,暴露能力不均衡
数据污染可致分数虚高约 47pp,认版本看分数

参考资料

  1. Jimenez et al. SWE-bench: Can Language Models Resolve Real-World GitHub Issues? arXiv:2310.06770, 2023. https://arxiv.org/abs/2310.06770
  2. SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? arXiv:2509.16941, 2025. https://arxiv.org/abs/2509.16941
  3. Yang et al. SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains? arXiv:2410.03859, 2024. https://arxiv.org/abs/2410.03859

延伸阅读