2 篇文档带有标签「ffn」

总览

本章节范围：从 04 章的 attention 子层出发，把它跟另一个核心子层 FFN 用归一化 + 残差包起来，组装成 Transformer block，然后堆叠成完整模型。读完 04 + 05 章就是 GPT 主干。

FFN 三步结构与激活函数如何从 GELU 演进到 SwiGLU，以及它为何占 block 参数的三分之二