跳到主要内容

13 篇文档带有标签「attention」

查看所有标签

从 dense 到高效

dense attention 撞上算力与显存两道墙,高效注意力沿三条机制族路线绕开

动态稀疏选择

用一个便宜的打分器为每个 query 挑出最相关的 key——比固定窗口准,比 dense 省

因果掩码

上三角 -∞ mask 怎么让 decoder-only 在屏蔽未来的同时保持训练全并行

多头注意力

为什么把注意力切成多头、每头各学到什么功能、现代 LLM 的头数与维度如何权衡

序列压缩注意力

沿序列方向把若干 token 的 KV 加权融合成一个压缩 entry,减少 entry 总数

总览

本章节范围:两卷。基础卷把 self-attention 从最朴素的"加权求和" 一路展开到 GPT 主线的"因果多头",严格 4 步递进,走完拿到 dense attention 的完整心智图。实现卷在此之上讲真实模型用的高效 / 异构注意力(稀疏 / 压缩 / 线性 / SSM),按机制族组织——这是 06 作为"大模型知识与技术的家"对前沿注意力的落点。

注意力架构

78 层 MLA 低秩注意力 + DSA 动态稀疏选择 + 1/4 层跨层复用索引——稀疏路线堆出 1M 无损上下文

滑窗与固定稀疏

每个 query 看哪些 key 由位置预定义——滑窗取局部,全局 token 和随机连接补长程

窗口内信息组织

lost-in-the-middle 的成因机制,以及如何通过布局和裁剪提升中段信息利用率

简化自注意力

用无参数版本建立加权求和直觉,理解为何 Q=K=V 共用一个向量会限制表达力

线性注意力与 SSM

不再做两两内积 + softmax,改用核函数或状态空间递推,把序列写成固定大小的前缀状态

维度压缩 MLA

不减 entry 数量,而是减小每个 token 的 KV——共享 head 或压到低秩 latent

自注意力 Q/K/V

为何需要三个独立投影矩阵、scaled dot-product 怎么防止 softmax 梯度消失