总览
本章节范围:单次上下文窗口内放什么、怎么组织、怎么压成本 目标读者:设计 agent prompt 与上下文管理的工程师
范围与边界 (Scope)
- 包含:上下文工程核心原则、窗口内信息组织、系统提示词工程、token 经济学与 prompt caching
- 不包含:
- 跨窗口的记忆存取、compaction → 03-记忆系统
- 工具协议与设计 → 05-工具系统与 MCP
- 多 agent 编排与 model routing 展开 → 04-编排与工作流
上下文工程 vs 记忆系统:本章管单次窗口内的组织与即时成本;记忆系统管跨窗口的存取与遗忘。prompt caching(本章)是 KV 复用降本,compaction(记忆系统)是压缩历史,二者不同。
名词定义
| 名词 | 定义 |
|---|---|
| 上下文工程 (context engineering) | 策划进入上下文窗口的全部 token(系统提示/工具/历史/检索)的工程实践 |
| right altitude | 指令粒度恰好:既不过度死板也不过度模糊 |
| 最小高信号 token 集 | 能最大化目标结果概率的最小、无冗余 token 集合 |
| lost-in-the-middle | 模型对上下文中段信息最不敏感的 U 形性能曲线 |
| context rot | 模型表现随上下文长度增加而退化的现象 |
| front-loading | 重要信息(长文档)前置、查询置尾的布局 |
| prompt caching | 复用请求前缀 KV 状态以跳过 prefill、降低成本的机制 |
| KV cache | Transformer 推理 prefill 阶段算出的键值矩阵,缓存它即可跳过重算 |
| 缓存断点 | cache_control 标记,缓存以此为界;断点前内容一变缓存即失效 |
| recency / primacy bias | causal 注意力对尾部 / 首部 token 更敏感,是 U 形曲线成因 |
| 工具结果裁剪 | 清除历史中可重获取的工具原始输出,最低风险的减负 |
| model routing | 按任务难度在强弱模型间分层调度以控成本 |
@tbl-agent-ctx-glossary 上下文工程章节核心名词定义:各术语的中英文对照与精确含义,覆盖 KV cache、lost-in-the-middle、routing 等概念
本章节所有文档默认这些名词已定义。
子文档索引 (Index)
- 02-核心原则 — 有限资源、最小高信号、right altitude、工具精简、just-in-time
- 03-系统提示词工程 — system prompt 结构、指令强度分级、agent 特有要素
- 04-窗口内信息组织 — lost-in-the-middle、front-loading、context rot 与布局对策
- 05-token-经济学 — prompt caching、O(N²) 成本、model routing、预算分层
参考资料
- Anthropic. Effective context engineering for AI agents. 2025.
- Liu et al. Lost in the Middle. arXiv:2307.03172, 2023.
- Chroma Research. Context Rot. 2025.
- 各子文档
## 参考资料段含完整引用。