总览

本章节范围：单次上下文窗口内放什么、怎么组织、怎么压成本 目标读者：设计 agent prompt 与上下文管理的工程师

范围与边界 (Scope)

包含：上下文工程核心原则、窗口内信息组织、系统提示词工程、token 经济学与 prompt caching
不包含：
- 跨窗口的记忆存取、compaction → 03-记忆系统
- 工具协议与设计 → 05-工具系统与 MCP
- 多 agent 编排与 model routing 展开 → 04-编排与工作流

上下文工程 vs 记忆系统：本章管单次窗口内的组织与即时成本；记忆系统管跨窗口的存取与遗忘。prompt caching（本章）是 KV 复用降本，compaction（记忆系统）是压缩历史，二者不同。

名词	定义
上下文工程 (context engineering)	策划进入上下文窗口的全部 token（系统提示/工具/历史/检索）的工程实践
right altitude	指令粒度恰好：既不过度死板也不过度模糊
最小高信号 token 集	能最大化目标结果概率的最小、无冗余 token 集合
lost-in-the-middle	模型对上下文中段信息最不敏感的 U 形性能曲线
context rot	模型表现随上下文长度增加而退化的现象
front-loading	重要信息（长文档）前置、查询置尾的布局
prompt caching	复用请求前缀 KV 状态以跳过 prefill、降低成本的机制
KV cache	Transformer 推理 prefill 阶段算出的键值矩阵，缓存它即可跳过重算
缓存断点	`cache_control` 标记，缓存以此为界；断点前内容一变缓存即失效
recency / primacy bias	causal 注意力对尾部 / 首部 token 更敏感，是 U 形曲线成因
工具结果裁剪	清除历史中可重获取的工具原始输出，最低风险的减负
model routing	按任务难度在强弱模型间分层调度以控成本

@tbl-agent-ctx-glossary 上下文工程章节核心名词定义：各术语的中英文对照与精确含义，覆盖 KV cache、lost-in-the-middle、routing 等概念

本章节所有文档默认这些名词已定义。