跳到主要内容
Tier6-Model
头脑风暴
COP
互联通信
问题追踪
通用知识库
其他
开发计划
refs
技术规格
验证
2 篇文档带有标签「streaming-llm」
查看所有标签
KV cache
显存占用计算、PagedAttention 管理机制与 KV 量化压缩方法
滑窗与固定稀疏
每个 query 看哪些 key 由位置预定义——滑窗取局部,全局 token 和随机连接补长程