2 篇文档带有标签「gqa」

多头注意力

为什么把注意力切成多头、每头各学到什么功能、现代 LLM 的头数与维度如何权衡

不减 entry 数量，而是减小每个 token 的 KV——共享 head 或压到低秩 latent