KV cache
显存占用计算、PagedAttention 管理机制与 KV 量化压缩方法
显存占用计算、PagedAttention 管理机制与 KV 量化压缩方法
跨节点 KV 传输何时受 RTT 主导、何时受带宽限制,以及如何突破瓶颈
核心要点:
长 CoT 与 Test-time scaling 如何放大 decode 集群的 KV 压力与调度挑战
prompt caching 如何复用 KV 降本、断点规则是什么、多轮 agent 的成本累积模式
上三角 -∞ mask 怎么让 decoder-only 在屏蔽未来的同时保持训练全并行
本章节范围:把训完 + 对齐完的 LLM 用起来生成 token,这一阶段的工程关键:prefill / decode 二段特征 → KV cache 管理 → sampling 算法 → 量化加速。是模型从"实验室能跑" 到"生产能扛 100K QPS" 的工程主线。
用四维分类坐标横评 Mem0、A-Mem、MemGPT / Letta、Hindsight 四套系统的设计取向