从 dense 到高效
dense attention 撞上算力与显存两道墙,高效注意力沿三条机制族路线绕开
dense attention 撞上算力与显存两道墙,高效注意力沿三条机制族路线绕开
用一个便宜的打分器为每个 query 挑出最相关的 key——比固定窗口准,比 dense 省
上三角 -∞ mask 怎么让 decoder-only 在屏蔽未来的同时保持训练全并行
为什么把注意力切成多头、每头各学到什么功能、现代 LLM 的头数与维度如何权衡
沿序列方向把若干 token 的 KV 加权融合成一个压缩 entry,减少 entry 总数
本章节范围:两卷。基础卷把 self-attention 从最朴素的"加权求和" 一路展开到 GPT 主线的"因果多头",严格 4 步递进,走完拿到 dense attention 的完整心智图。实现卷在此之上讲真实模型用的高效 / 异构注意力(稀疏 / 压缩 / 线性 / SSM),按机制族组织——这是 06 作为"大模型知识与技术的家"对前沿注意力的落点。
78 层 MLA 低秩注意力 + DSA 动态稀疏选择 + 1/4 层跨层复用索引——稀疏路线堆出 1M 无损上下文
每个 query 看哪些 key 由位置预定义——滑窗取局部,全局 token 和随机连接补长程
lost-in-the-middle 的成因机制,以及如何通过布局和裁剪提升中段信息利用率
用无参数版本建立加权求和直觉,理解为何 Q=K=V 共用一个向量会限制表达力
不再做两两内积 + softmax,改用核函数或状态空间递推,把序列写成固定大小的前缀状态
不减 entry 数量,而是减小每个 token 的 KV——共享 head 或压到低秩 latent
为何需要三个独立投影矩阵、scaled dot-product 怎么防止 softmax 梯度消失