8 篇文档带有标签「kv-cache」

KV cache

显存占用计算、PagedAttention 管理机制与 KV 量化压缩方法

跨节点 KV 传输何时受 RTT 主导、何时受带宽限制，以及如何突破瓶颈

核心要点：

长 CoT 与 Test-time scaling 如何放大 decode 集群的 KV 压力与调度挑战

prompt caching 如何复用 KV 降本、断点规则是什么、多轮 agent 的成本累积模式

上三角 -∞ mask 怎么让 decoder-only 在屏蔽未来的同时保持训练全并行

本章节范围：把训完 + 对齐完的 LLM 用起来生成 token，这一阶段的工程关键：prefill / decode 二段特征 → KV cache 管理 → sampling 算法 → 量化加速。是模型从"实验室能跑" 到"生产能扛 100K QPS" 的工程主线。

用四维分类坐标横评 Mem0、A-Mem、MemGPT / Letta、Hindsight 四套系统的设计取向