256 路由 + 1 共享专家,每 token top-8——sigmoid 独立打分 + bias EMA 做无辅助损失负载均衡
FFN 三步结构与激活函数如何从 GELU 演进到 SwiGLU,以及它为何占 block 参数的三分之二