跳到主要内容

8 篇文档带有标签「kv-cache」

查看所有标签

KV cache

显存占用计算、PagedAttention 管理机制与 KV 量化压缩方法

token 经济学

prompt caching 如何复用 KV 降本、断点规则是什么、多轮 agent 的成本累积模式

因果掩码

上三角 -∞ mask 怎么让 decoder-only 在屏蔽未来的同时保持训练全并行

总览

本章节范围:把训完 + 对齐完的 LLM 用起来生成 token,这一阶段的工程关键:prefill / decode 二段特征 → KV cache 管理 → sampling 算法 → 量化加速。是模型从"实验室能跑" 到"生产能扛 100K QPS" 的工程主线。

生产记忆系统对标

用四维分类坐标横评 Mem0、A-Mem、MemGPT / Letta、Hindsight 四套系统的设计取向