跳到主要内容

1 篇文档带有标签「pre-norm」

查看所有标签

归一化与残差

RMSNorm 为何取代 LayerNorm、pre-norm 怎么解掉深层训练不稳,以及残差作为 attention 与 FFN 通信通道的几何意义