Decode 阶段 CP
KV 容量墙怎么逼出 KV 分片、pass-Q 为何比传 KV 量小几个数量级
KV 容量墙怎么逼出 KV 分片、pass-Q 为何比传 KV 量小几个数量级
推理两阶段的计算特征差异(compute-bound vs memory-bound)及 PD 分离动机
核心要点:
长 CoT 与 Test-time scaling 如何放大 decode 集群的 KV 压力与调度挑战
归约拓扑改树形怎么把步数压到 O(log p)、只传三量为何与序列长度解耦
本章节范围:把训完 + 对齐完的 LLM 用起来生成 token,这一阶段的工程关键:prefill / decode 二段特征 → KV cache 管理 → sampling 算法 → 量化加速。是模型从"实验室能跑" 到"生产能扛 100K QPS" 的工程主线。