跳到主要内容

3 篇文档带有标签「evaluation」

查看所有标签

SWE-bench 家族

SWE-bench 怎么演进到 Pro、Multilingual、Multimodal,以及如何识别数据污染

总览

本章节范围:agent 怎么被衡量与观察——评测基准、可观测、成本度量