跳到主要内容

总览

本章节范围:大模型长上下文(128K 及以上)的算法、架构、训练、推理技术,讲"模型如何能看长、如何学会长、如何跑得起长"。 目标读者:希望系统理解长上下文部署的工程师与决策者。 不含:互联通信视角的展开(CP / PD 分离 / 超节点拓扑等),统一沉淀在 docs/interconnect/,见 互联视角索引

名词定义

本章节所有子文档默认这些名词已定义。子文档只解释本文新引入的名词,不再重复。

名词定义
上下文窗口 (Context Window)模型一次推理中能处理的最大 token 数。当前主流"长上下文"的下限通常指 128K,先进模型达 1M-10M
Prefill推理第一阶段,并行处理输入 prompt 的全部 token 生成首 token,attention 计算量随序列长度 $n$$O(n^2)$
Decode推理后续阶段,逐 token 自回归生成,每步需读取全量 KVCache,显存带宽密集
KVCacheKey/Value 缓存,存历史 token 的 attention key/value,避免重算;显存占用随序列长度线性增长
TTFT (Time To First Token)首 token 延迟,prefill 主导
TPOT (Time Per Output Token)单 token 生成延迟,decode 主导,与 KVCache 读取量正相关
算术强度 (Arithmetic Intensity)FLOP / Byte 比值,决定负载落在 roofline 的算力区还是访存区
位置编码 (Positional Encoding)给 token 注入序列位置信息的机制;RoPE / ALiBi 等为常见实现
外推 (Extrapolation)让短上下文训练的模型在推理时处理更长序列的能力
注意力机制变体 (Attention Variant)偏离原版 dense softmax attention 的设计:稀疏 / 滑窗 / 线性 / 状态空间 (SSM) 等
架构层 KV 压缩在模型架构上降低 KV 体积的方法(GQA / MQA / MLA),训练时定型,与推理时动态压缩区分
RAG (Retrieval-Augmented Generation)检索增强生成,长上下文的常见替代或互补方案
Agent多轮、多工具调用、长会话的智能体工作负载,是长上下文需求的主要驱动之一

@tbl-longctx-overview-glossary 长上下文章节共享名词表

领域主矛盾与技术全景

长上下文的几乎所有技术,都在回应同一个矛盾:KVCache 随序列长度线性膨胀,单卡显存放不下。 本章每一篇文档,都是对这个矛盾某一环的应对。这个矛盾派生出一条因果链:

  • 序列变长,两道墙同时升高:attention 计算量 $O(n^2)$(算力墙),KVCache 显存 $O(n)$(显存墙)。
  • 显存墙是部署侧的第一性约束:KV 放不下 → 三条出路 —— 压缩(架构层 GQA/MQA/MLA、推理层量化/驱逐)、卸载(CPU/SSD)、切分(多卡)。
  • 切分把显存问题转成通信问题:KV 跨卡后,attention 的 all-gather 与 KV 跨芯流量随 $n$ 放大,互联带宽(而非算力)成新瓶颈 → 超节点高带宽域是当前最优解。

下图把各技术挂到这条派生链上 —— 每个节点是对某一道墙或某一条出路的回应,箭头表示"派生 / 出路",虚线表示"辅助 / 验证",后缀标注详解文档编号。主矛盾的完整推导见 02-第一性挑战

图 3.1: 长上下文技术概念依赖图:主矛盾派生算力墙与显存墙两支,显存墙再派生压缩/卸载/切分三条出路

按问题导航

带着你的问题进来 —— 每个子问题对应一类技术和它的详解文档,不必从头顺读。

子问题解药技术核心取舍详见
模型根本看不到这么长位置编码外推(RoPE / NTK-aware / YaRN)外推距离 vs 精度衰减03-位置编码与外推
attention $O(n^2)$ 算不动稀疏 / 线性 / SSM (Mamba)复杂度降低 vs 质量损失04-注意力机制变体
KV 体积太大(架构层)GQA / MQA / MLA体积压缩 vs 表达力05-KVCache 架构压缩
KV 放不下(推理层)量化 / 驱逐 / offload / PagedAttention显存换精度或延迟07-推理 - KV 管理
相同前缀被反复算prefix caching / RadixAttention命中率依赖请求前缀分布07-推理 - KV 管理
输入里有大量低信息量内容输入压缩(LLMLingua 硬删 / 软 token 编码)压缩比 vs 信息损失10-上下文压缩
单卡放不下,被迫切多卡上下文并行 CP / SP / Ring Attention显存降低 vs 互联通信上升interconnect 05 / 上下文并行
切分后通信成瓶颈超节点高带宽域(NVL72)带宽提升 vs 成本interconnect 02 / NVL72
prefill 与 decode 互相干扰chunked prefill / PD 分离平滑尖峰 vs 调度复杂度08-推理 - 调度优化interconnect 10
模型"学会"用长依赖渐进扩展训练 / 长数据合成训练成本 vs 长程能力06-训练侧
长上下文到底做得怎样RULER / NIAH / ∞Bench宣称长度 ≠ 有效长度09-评测与现状
外部知识太大塞不进窗口、要实时更新RAG 或 RAG × 长上下文混合准确率 vs 成本/更新11-RAG 与长上下文

@tbl-longctx-overview-nav 按问题导航:子问题、解药技术、核心取舍、详解文档

背景:需求与模型现状

长上下文的业务驱动主要有四类,按出现时序:

场景长上下文承担的角色典型上下文规模
长文档理解一次性读入整本书 / 财报 / 法律合同50K-500K
代码库级编程整仓库 / 多文件代码理解、跨文件重构100K-1M
检索增强 (RAG 互补)把多文档检索结果拼接进 context,省去精排数十 K
Agent 与长会话多轮工具调用、长任务记忆、思维链累积100K-数 M

@tbl-longctx-overview-usecase 长上下文的四类业务驱动

与 RAG 的关系:长上下文不是 RAG 的替代品,而是搭档。RAG 解决"信息海量、按需检索",长上下文解决"已检索内容如何被模型一次性消化"。

业界从 2K 起步,2023 年内推到 128K,2024-2025 年达到 1M+,2025-2026 年部分先进模型宣称 10M。

时期代表模型上下文规模
2020 - 2022GPT-3 / LLaMA 12K - 4K
2023GPT-4 / Claude 2 / LLaMA 28K - 128K
2024Claude 3 / GPT-4 Turbo / LLaMA 3.1128K - 200K
2024 中Gemini 1.5 Pro / DeepSeek-V21M / 128K
2025Gemini 2.0 / Claude 3.5+ / GPT-4.1 / Qwen2.5-Turbo1M - 2M
2025-2026部分研究模型 (Gemini 系列宣称)10M+

@tbl-longctx-overview-evolution 主流模型上下文规模演进(截至 2026 初)

数据可信度提示:上表为业界趋势示意,具体模型上下文长度以官方文档为准;"宣称"上下文不等同于"有效"上下文,后者需以 RULER / NIAH 等评测衡量(→ 09-评测与现状)。

互联视角索引

分工原则:本章讲"长上下文这件事本身"(模型层、训练层、推理算法层);它的系统与互联视角(并行切分通信、推理服务化、超节点拓扑、集合通信原语)统一沉淀在 docs/interconnect/,本节按主题分组作主索引,避免重写。

并行策略与单序列切分

链接长上下文相关性
05-LLM 并行通信 / 序列并行 (Megatron SP)TP 组内序列切分,与长上下文并行互补
05-LLM 并行通信 / 上下文并行 (CP / Ring / Ulysses)长上下文必备:把单序列摊到多卡,attention 跨卡协同
05-LLM 并行通信 / 专家并行 (EP)MoE 模型长上下文部署时与 CP 并存的通信源
05-LLM 并行通信 / 计算通信 overlapCP 的环形 K/V 传递如何与 attention 计算 overlap

@tbl-longctx-overview-link-parallel 并行策略相关 interconnect 文档

推理服务化与 KV 跨节点

链接长上下文相关性
09-推理服务化通信 / 总览PD 分离生态与长上下文部署的连接点
10 / PD 分离原理长上下文加剧 prefill/decode 错配的应对
10 / Mooncake (KV-centric)KV 中心调度,长上下文场景的代表实现
10 / SGLang PD开源 PD 实现
10 / NVIDIA Dynamo企业级 PD 框架
10 / KV 跨节点传输瓶颈RTT-bound vs BW-bound 的临界点分析
10 / Cache-aware 调度Prefix caching 的调度落地
10 / Reasoning 推理通信长思维链下 decode 通信特征

@tbl-longctx-overview-link-serving 推理服务化相关 interconnect 文档

超节点与拓扑

链接长上下文相关性
02-网络拓扑 / NVL72大 scale-up 域作统一显存池,承载长 KV
02-网络拓扑 / 总览拓扑族在长上下文大流量下的适配性

@tbl-longctx-overview-link-topo 拓扑相关 interconnect 文档

集合通信底层

链接长上下文相关性
04-集合通信 / all-gatherRing Attention 中 K/V 环形传递的底层原语
04-集合通信 / all-to-allDeepSpeed-Ulysses CP 实现的核心原语

@tbl-longctx-overview-link-cc 集合通信相关 interconnect 文档

代表模型分析

链接长上下文相关性
07-前沿模型追踪 / DeepSeek-V4 / MHCMulti-head 共享 KV,架构层 KV 压缩的工业案例
07-前沿模型追踪 / DeepSeek-V4 / AttentionMLA 在 V4 上的实现细节

@tbl-longctx-overview-link-deepseek DeepSeek 案例相关文档