跳到主要内容

1 篇文档带有标签「dimension-compression」

查看所有标签

维度压缩 MLA

不减 entry 数量,而是减小每个 token 的 KV——共享 head 或压到低秩 latent