5 篇文档带有标签「glm-5.2」

MoE 路由

256 路由 + 1 共享专家，每 token top-8——sigmoid 独立打分 + bias EMA 做无辅助损失负载均衡

Muon 预训练 + Slime 异步解耦 RL + GRPO+IcePop 硬门控 + OPD 双 teacher 蒸馏

本章节范围：GLM-5.2（744B/40B MoE，1M 上下文，MIT 开源）的架构创新——IndexShare 跨层索引复用、MLA 低秩注意力、MoE 路由、Slime RL 训练框架、MTP 改进、国产算力 Day-0 适配。

Effort Level + MTP 投机解码 + HiSparse/TITO/EP 通信路径 + 8 家国产卡 Day-0 适配，MIT 开源

78 层 MLA 低秩注意力 + DSA 动态稀疏选择 + 1/4 层跨层复用索引——稀疏路线堆出 1M 无损上下文