跳到主要内容

2 篇文档带有标签「streaming-llm」

查看所有标签

KV cache

显存占用计算、PagedAttention 管理机制与 KV 量化压缩方法

滑窗与固定稀疏

每个 query 看哪些 key 由位置预定义——滑窗取局部,全局 token 和随机连接补长程