跳到主要内容

2 篇文档带有标签「swiglu」

查看所有标签

MoE 路由

256 路由 + 1 共享专家,每 token top-8——sigmoid 独立打分 + bias EMA 做无辅助损失负载均衡

激活与 FFN

FFN 三步结构与激活函数如何从 GELU 演进到 SwiGLU,以及它为何占 block 参数的三分之二