总览

本章节范围：agent 怎么被衡量与观察——评测基准、可观测、成本度量 目标读者：评估 agent 能力、搭建 agent 可观测的工程师

范围与边界 (Scope)

包含：SWE-bench 家族、终端与长 horizon 评测、可观测 tracing、成本度量、benchmark 饱和
不包含：
- agent 内部用测试自纠的机制 → 06-规划与自纠/04-验证闭环
- LLM-as-judge 评判机制 → 06-规划与自纠/04-验证闭环
- token 降本手段 → 02-上下文工程/05-token-经济学

名词	定义
SWE-bench	用真实 GitHub issue + 测试套件评测 coding agent 的基准
%Resolved	相关测试由失败转通过的实例占比，SWE-bench 主指标
数据污染	测试样本在训练时已被模型见过，导致分数虚高
Terminal-Bench	评测 agent 命令行操作能力的基准
长 horizon	步数很多的长流程任务
OTel GenAI	OpenTelemetry 为 agent/LLM 定义的可观测语义约定
span	tracing 中记录单步操作（LLM 调用/工具执行）的单元
benchmark 饱和	分数逼近上限后失去区分度的状态

@tbl-agent-eval-glossary 评测与可观测章节名词定义：SWE-bench、%Resolved、数据污染、Terminal-Bench、长 horizon、OTel GenAI、span、benchmark 饱和

本章节所有文档默认这些名词已定义。