跳到主要内容

总览

本章节范围:AI agent harness——包裹 LLM 的运行骨架,把模型变成能跨步骤、跨会话、带工具完成真实任务的系统 目标读者:设计或评估 agent 系统(coding agent、研究 agent、多 agent 编排)的工程师

范围与边界 (Scope)

  • 包含:agent harness 的九个子系统——上下文工程、记忆、工具与 MCP、编排与工作流、规划与自纠、安全沙箱、评测可观测、人机交互、扩展生态
  • 不包含:
    • LLM 模型本身的训练 / 架构 → 见 03-长上下文 等算法章节
    • agent 在具体业务(如本项目仿真)中的落地 → 见各业务模块文档

什么是 harness?

核心问题:同一个模型,为什么有的 agent 稳、有的 agent 飘?

差距主要不在模型,在 harness——包裹模型的确定性基础设施。对 Claude Code 的源码分析发现,它只有 1.6% 是 AI 决策逻辑,其余 98.4% 是权限门、上下文管理、工具路由、恢复逻辑这类确定性骨架(arXiv:2604.14228)。

harness 是模型之外的运行骨架:它决定模型每一步看到哪些 token、能调哪些工具、记住什么、被允许做什么。Anthropic 的判断是"最大的 ROI 来自对 agent 实际所见 token 的工程化管理,而非提示词措辞"。本章把 harness 拆成九个子系统逐一讲透。

Harness 解剖:九个子系统

Agent harness 解剖:LLM 模型核心被九个确定性子系统包裹,每个子系统对应本章一个子章节@fig-agent-harness-anatomy

子系统解决什么子章节
上下文工程单次窗口内放什么、怎么组织与压缩02
记忆跨窗口怎么存、取、遗忘03
工具与 MCP模型怎么调外部能力05
编排与工作流单 agent 还是多 agent、怎么协同04
规划与自纠任务怎么分解、错了怎么修06
安全与沙箱怎么防注入、隔离风险07
评测与可观测怎么衡量好坏、怎么追踪08
人机交互与控制怎么审批、中断、远程控制09
扩展与生态怎么加 skill / hook / plugin10

@tbl-agent-overview-subsystems Agent harness 九个子系统:各子系统名称、解决的核心问题及对应子章节编号

名词定义

名词定义
harness (运行骨架)包裹 LLM 的确定性基础设施:上下文管理、工具路由、权限门、恢复逻辑
上下文工程 (context engineering)把有限的 context window 当工程资源管理:写入/选取/压缩/隔离
agentic loop模型"思考—调工具—观察—再思考"的循环,是 agent 的基本执行单元
MCP (Model Context Protocol)agent 接外部工具/服务的标准协议,号称 "USB-C for AI"
subagent (子 agent)主 agent 派生、上下文隔离、只回传结论的并行执行单元
compaction (上下文压缩)历史接近窗口上限时压成摘要续跑(详见 03-记忆系统)
prompt injection通过工具返回或外部内容注入恶意指令,诱导 agent 替攻击者行动
skill按需加载的能力模块,progressive disclosure 减少常驻上下文

@tbl-agent-overview-glossary Agent harness 章节核心名词定义:各跨子系统术语的中英文对照与精确含义

本章节所有子文档默认这些跨子系统名词已定义;各子章节的专属名词在其 01-总览.md 的名词定义段补充。

子章节索引 (Index)

调研批次与划分依据见 brainstorm 文档

参考资料

  • Liu et al. Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems. arXiv:2604.14228, 2026.
  • Anthropic. Effective context engineering for AI agents. 2025.
  • 各子章节 01-总览.md 的参考来源段含该子系统完整引用。