跳到主要内容
Tier6-Model
头脑风暴
COP
互联通信
问题追踪
通用知识库
其他
开发计划
refs
技术规格
验证
2 篇文档带有标签「mqa」
查看所有标签
多头注意力
为什么把注意力切成多头、每头各学到什么功能、现代 LLM 的头数与维度如何权衡
维度压缩 MLA
不减 entry 数量,而是减小每个 token 的 KV——共享 head 或压到低秩 latent