SWE-bench 家族

SWE-bench 怎么演进到 Pro、Multilingual、Multimodal，以及如何识别数据污染

核心要点：

SWE-bench: GitHub issue 修复 + 测试判定

Verified：人工筛选 500 个可靠子集

Pro：私有仓库切断数据泄露

Multilingual/Multimodal 扩展语言与视觉

数据污染是核心隐患

本文讲 coding agent 主流评测家族。纯 CLI 与长 horizon 评测见 03-终端与长horizon评测，饱和困境见 04-可观测与成本度量。

SWE-bench 怎么评 coding agent?

核心问题：怎么客观判断一个 agent 会不会改真实代码？

给 agent 一个真实 GitHub issue，让它改代码，用仓库自带的测试套件判定是否解决[1]。SWE-bench 原版有 2,294 个 Python 仓库实例，主指标是 %Resolved（相关测试由失败转通过）。

这个"issue + 测试验证"范式是家族的共同基础——它的优势是客观（测试通过就是通过）、贴近真实开发。发布时 Claude 2 仅解 1.96%，可见任务之难。下面的变体都在这个骨架上解决不同问题。

核心问题：原版 SWE-bench 有什么不可靠之处，要派生新版本？

原版有数据污染和任务噪声两个问题，Verified 解噪声、Pro 解污染[2]。

数据污染：原版 94%+ 实例早于主流模型训练截止，顶级模型在原版得 70%+、在抗污染版本仅 23%，相差约 47 个百分点。
SWE-bench Verified: OpenAI 联合人工筛选 500 个实例，确保问题清晰、测试正确、确实可解，去掉任务噪声。
SWE-bench Pro: 1,865 个实例含 18 个商业私有仓库，从根本切断训练数据泄露；任务需工程师数小时到数天，在切断泄露的商业私有集上最强模型 Pass@1 也仅约 17.8%[2]。

可借鉴的判断：看 coding agent 分数要认版本——原版的高分可能含污染水分，Pro 的低分才接近真实工程能力。

核心问题：只测 Python 文本够吗？

Multilingual 测跨语言能力，Multimodal 测含图问题，两者都暴露能力不均衡。SWE-bench 原版只有 Python 纯文本，这两个变体扩展了维度。

SWE-bench Multilingual: 300 个实例覆盖 9 种语言；同一 agent 在 Multilingual 上总分仅约 43%,Go/C++ 约 29%，语言能力分布不均衡。
SWE-bench Multimodal: 617 个实例（17 个 JS 库），问题含图片[3]；在原版强的模型这里退步，语言无关架构反而领先。

可借鉴的判断：单一 benchmark 的高分不代表全能——换语言、换模态，能力分布可能大不相同。

核心问题："测试集泄漏到训练集"对评测的影响有多大？

污染能让分数虚高几十个百分点，是 static benchmark 的根本隐患[2]。前面提到的原版与抗污染版本 47 个百分点的差距，主要就来自污染。

污染的本质是测试样本在训练时已被模型见过，于是"解题"退化成"回忆"。这驱动了 Pro 用私有仓库的设计——见不到就无法回忆。污染的系统性分析与检测方法见 04-可观测与成本度量的饱和讨论。可借鉴的原则：评测的可信度取决于测试集对模型的不可见性。

知识点	核心结论
评测范式	GitHub issue + 仓库测试套件判定 %Resolved
Verified	人工筛 500 个清晰可解实例，去任务噪声
Pro	私有仓库切断泄露，商业私有集最强约 17.8%
Multilingual/Multimodal	跨语言/含图，暴露能力不均衡
数据污染	可致分数虚高约 47pp，认版本看分数

Jimenez et al. SWE-bench: Can Language Models Resolve Real-World GitHub Issues? arXiv:2310.06770, 2023. https://arxiv.org/abs/2310.06770
SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? arXiv:2509.16941, 2025. https://arxiv.org/abs/2509.16941
Yang et al. SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains? arXiv:2410.03859, 2024. https://arxiv.org/abs/2410.03859