跳到主要内容

2 篇文档带有标签「moe」

查看所有标签

MoE 路由

256 路由 + 1 共享专家,每 token top-8——sigmoid 独立打分 + bias EMA 做无辅助损失负载均衡

总览

本章节范围:GLM-5.2(744B/40B MoE,1M 上下文,MIT 开源)的架构创新——IndexShare 跨层索引复用、MLA 低秩注意力、MoE 路由、Slime RL 训练框架、MTP 改进、国产算力 Day-0 适配。