跳到主要内容

总览

本章节范围:单次上下文窗口内放什么、怎么组织、怎么压成本 目标读者:设计 agent prompt 与上下文管理的工程师

范围与边界 (Scope)

  • 包含:上下文工程核心原则、窗口内信息组织、系统提示词工程、token 经济学与 prompt caching
  • 不包含:

上下文工程 vs 记忆系统:本章管单次窗口内的组织与即时成本;记忆系统管跨窗口的存取与遗忘。prompt caching(本章)是 KV 复用降本,compaction(记忆系统)是压缩历史,二者不同。

名词定义

名词定义
上下文工程 (context engineering)策划进入上下文窗口的全部 token(系统提示/工具/历史/检索)的工程实践
right altitude指令粒度恰好:既不过度死板也不过度模糊
最小高信号 token 集能最大化目标结果概率的最小、无冗余 token 集合
lost-in-the-middle模型对上下文中段信息最不敏感的 U 形性能曲线
context rot模型表现随上下文长度增加而退化的现象
front-loading重要信息(长文档)前置、查询置尾的布局
prompt caching复用请求前缀 KV 状态以跳过 prefill、降低成本的机制
KV cacheTransformer 推理 prefill 阶段算出的键值矩阵,缓存它即可跳过重算
缓存断点cache_control 标记,缓存以此为界;断点前内容一变缓存即失效
recency / primacy biascausal 注意力对尾部 / 首部 token 更敏感,是 U 形曲线成因
工具结果裁剪清除历史中可重获取的工具原始输出,最低风险的减负
model routing按任务难度在强弱模型间分层调度以控成本

@tbl-agent-ctx-glossary 上下文工程章节核心名词定义:各术语的中英文对照与精确含义,覆盖 KV cache、lost-in-the-middle、routing 等概念

本章节所有文档默认这些名词已定义。

子文档索引 (Index)

参考资料

  • Anthropic. Effective context engineering for AI agents. 2025.
  • Liu et al. Lost in the Middle. arXiv:2307.03172, 2023.
  • Chroma Research. Context Rot. 2025.
  • 各子文档 ## 参考资料 段含完整引用。