跳到主要内容

总览

本章节范围:agent 怎么被衡量与观察——评测基准、可观测、成本度量 目标读者:评估 agent 能力、搭建 agent 可观测的工程师

范围与边界 (Scope)

名词定义

名词定义
SWE-bench用真实 GitHub issue + 测试套件评测 coding agent 的基准
%Resolved相关测试由失败转通过的实例占比,SWE-bench 主指标
数据污染测试样本在训练时已被模型见过,导致分数虚高
Terminal-Bench评测 agent 命令行操作能力的基准
长 horizon步数很多的长流程任务
OTel GenAIOpenTelemetry 为 agent/LLM 定义的可观测语义约定
spantracing 中记录单步操作(LLM 调用/工具执行)的单元
benchmark 饱和分数逼近上限后失去区分度的状态

@tbl-agent-eval-glossary 评测与可观测章节名词定义:SWE-bench、%Resolved、数据污染、Terminal-Bench、长 horizon、OTel GenAI、span、benchmark 饱和

本章节所有文档默认这些名词已定义。

子文档索引 (Index)

阅读建议

参考资料

  • SWE-bench / Terminal-Bench / LOCA-bench / Ouroboros 等论文,详见各子文档 ## 参考资料