跳到主要内容
Tier6-Model
头脑风暴
COP
互联通信
问题追踪
通用知识库
其他
开发计划
refs
技术规格
验证
1 篇文档带有标签「residual-stream」
查看所有标签
归一化与残差
RMSNorm 为何取代 LayerNorm、pre-norm 怎么解掉深层训练不稳,以及残差作为 attention 与 FFN 通信通道的几何意义