跳到主要内容

2 篇文档带有标签「residual」

查看所有标签

归一化与残差

RMSNorm 为何取代 LayerNorm、pre-norm 怎么解掉深层训练不稳,以及残差作为 attention 与 FFN 通信通道的几何意义

总览

本章节范围:从 04 章的 attention 子层出发,把它跟另一个核心子层 FFN 用归一化 + 残差包起来,组装成 Transformer block,然后堆叠成完整模型。读完 04 + 05 章就是 GPT 主干。