总览
本章节范围:agent 怎么被衡量与观察——评测基准、可观测、成本度量 目标读者:评估 agent 能力、搭建 agent 可观测的工程师
范围与边界 (Scope)
- 包含:SWE-bench 家族、终端与长 horizon 评测、可观测 tracing、成本度量、benchmark 饱和
- 不包含:
- agent 内部用测试自纠的机制 → 06-规划与自纠/04-验证闭环
- LLM-as-judge 评判机制 → 06-规划与自纠/04-验证闭环
- token 降本手段 → 02-上下文工程/05-token-经济学
名词定义
| 名词 | 定义 |
|---|---|
| SWE-bench | 用真实 GitHub issue + 测试套件评测 coding agent 的基准 |
| %Resolved | 相关测试由失败转通过的实例占比,SWE-bench 主指标 |
| 数据污染 | 测试样本在训练时已被模型见过,导致分数虚高 |
| Terminal-Bench | 评测 agent 命令行操作能力的基准 |
| 长 horizon | 步数很多的长流程任务 |
| OTel GenAI | OpenTelemetry 为 agent/LLM 定义的可观测语义约定 |
| span | tracing 中记录单步操作(LLM 调用/工具执行)的单元 |
| benchmark 饱和 | 分数逼近上限后失去区分度的状态 |
@tbl-agent-eval-glossary 评测与可观测章节名词定义:SWE-bench、%Resolved、数据污染、Terminal-Bench、长 horizon、OTel GenAI、span、benchmark 饱和
本章节所有文档默认这些名词已定义。
子文档索引 (Index)
- 02-SWE-bench家族 — 原版/Verified/Pro/Multilingual/Multimodal 与污染应对
- 03-终端与长horizon评测 — Terminal-Bench、LongCLI-Bench、LOCA-bench
- 04-可观测与成本度量 — OTel GenAI tracing、成本三层、benchmark 饱和与污染
阅读建议
- 评 agent 能力 → 02-SWE-bench家族 + 03-终端与长horizon评测,注意 benchmark 的盲区与版本。
- 观测 agent 运行 → 04-可观测与成本度量 的 tracing 与成本度量。
- 判断分数可信度 → 04 的饱和与污染分析。
参考资料
- SWE-bench / Terminal-Bench / LOCA-bench / Ouroboros 等论文,详见各子文档
## 参考资料。