IndexShare
利用相邻层 top-K 索引的 70-100% 重叠,让 3/4 的 Transformer 层跳过 indexer 计算
利用相邻层 top-K 索引的 70-100% 重叠,让 3/4 的 Transformer 层跳过 indexer 计算
本章节范围:GLM-5.2(744B/40B MoE,1M 上下文,MIT 开源)的架构创新——IndexShare 跨层索引复用、MLA 低秩注意力、MoE 路由、Slime RL 训练框架、MTP 改进、国产算力 Day-0 适配。
78 层 MLA 低秩注意力 + DSA 动态稀疏选择 + 1/4 层跨层复用索引——稀疏路线堆出 1M 无损上下文