SWE-bench 怎么演进到 Pro、Multilingual、Multimodal,以及如何识别数据污染
本章节范围:agent 怎么被衡量与观察——评测基准、可观测、成本度量
Terminal-Bench、LongCLI-Bench、LOCA-bench 各补 SWE-bench 哪块盲区