2 篇文档带有标签「self-attention」

总览

本章节范围：两卷。基础卷把 self-attention 从最朴素的"加权求和" 一路展开到 GPT 主线的"因果多头"，严格 4 步递进，走完拿到 dense attention 的完整心智图。实现卷在此之上讲真实模型用的高效 / 异构注意力（稀疏 / 压缩 / 线性 / SSM），按机制族组织——这是 06 作为"大模型知识与技术的家"对前沿注意力的落点。

简化自注意力

用无参数版本建立加权求和直觉，理解为何 Q=K=V 共用一个向量会限制表达力