SWE-bench 家族
SWE-bench 怎么演进到 Pro、Multilingual、Multimodal,以及如何识别数据污染
核心要点:
- SWE-bench: GitHub issue 修复 + 测试判定
- Verified:人工筛选 500 个可靠子集
- Pro:私有仓库切断数据泄露
- Multilingual/Multimodal 扩展语言与视觉
- 数据污染是核心隐患
本文讲 coding agent 主流评测家族。纯 CLI 与长 horizon 评测见 03-终端与长horizon评测,饱和困境见 04-可观测与成本度量。
SWE-bench 怎么评 coding agent?
核心问题:怎么客观判断一个 agent 会不会改真实代码?
给 agent 一个真实 GitHub issue,让它改代码,用仓库自带的测试套件判定是否解决[1]。SWE-bench 原版有 2,294 个 Python 仓库实例,主指标是 %Resolved(相关测试由失败转通过)。
这个"issue + 测试验证"范式是家族的共同基础——它的优势是客观(测试通过就是通过)、贴近真实开发。发布时 Claude 2 仅解 1.96%,可见任务之难。下面的变体都在这个骨架上解决不同问题。
为什么需要 Verified 和 Pro?
核心问题:原版 SWE-bench 有什么不可靠之处,要派生新版本?
原版有数据污染和任务噪声两个问题,Verified 解噪声、Pro 解污染[2]。
- 数据污染:原版 94%+ 实例早于主流模型训练截止,顶级模型在原版得 70%+、在抗污染版本仅 23%,相差约 47 个百分点。
- SWE-bench Verified: OpenAI 联合人工筛选 500 个实例,确保问题清晰、测试正确、确实可解,去掉任务噪声。
- SWE-bench Pro: 1,865 个实例含 18 个商业私有仓库,从根本切断训练数据泄露;任务需工程师数小时到数天,在切断泄露的商业私有集上最强模型 Pass@1 也仅约 17.8%[2]。
可借鉴的判断:看 coding agent 分数要认版本——原版的高分可能含污染水分,Pro 的低分才接近真实工程能力。
Multilingual 和 Multimodal 测什么?
核心问题:只测 Python 文本够吗?
Multilingual 测跨语言能力,Multimodal 测含图问题,两者都暴露能力不均衡。SWE-bench 原版只有 Python 纯文本,这两个变体扩展了维度。
- SWE-bench Multilingual: 300 个实例覆盖 9 种语言;同一 agent 在 Multilingual 上总分仅约 43%,Go/C++ 约 29%,语言能力分布不均衡。
- SWE-bench Multimodal: 617 个实例(17 个 JS 库),问题含图片[3];在原版强的模型这里退步,语言无关架构反而领先。
可借鉴的判断:单一 benchmark 的高分不代表全能——换语言、换模态,能力分布可能大不相同。
数据污染有多严重?
核心问题:"测试集泄漏到训练集"对评测的影响有多大?
污染能让分数虚高几十个百分点,是 static benchmark 的根本隐患[2]。前面提到的原版与抗污染版本 47 个百分点的差距,主要就来自污染。
污染的本质是测试样本在训练时已被模型见过,于是"解题"退化成"回忆"。这驱动了 Pro 用私有仓库的设计——见不到就无法回忆。污染的系统性分析与检测方法见 04-可观测与成本度量 的饱和讨论。可借鉴的原则:评测的可信度取决于测试集对模型的不可见性。
Takeaway
| 知识点 | 核心结论 |
|---|---|
| 评测范式 | GitHub issue + 仓库测试套件判定 %Resolved |
| Verified | 人工筛 500 个清晰可解实例,去任务噪声 |
| Pro | 私有仓库切断泄露,商业私有集最强约 17.8% |
| Multilingual/Multimodal | 跨语言/含图,暴露能力不均衡 |
| 数据污染 | 可致分数虚高约 47pp,认版本看分数 |
参考资料
- Jimenez et al. SWE-bench: Can Language Models Resolve Real-World GitHub Issues? arXiv:2310.06770, 2023. https://arxiv.org/abs/2310.06770
- SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? arXiv:2509.16941, 2025. https://arxiv.org/abs/2509.16941
- Yang et al. SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains? arXiv:2410.03859, 2024. https://arxiv.org/abs/2410.03859
延伸阅读
- 03-终端与长horizon评测 — SWE-bench 测不到的 CLI 与长任务
- 04-可观测与成本度量 — benchmark 饱和与污染的系统分析