总览

本章节范围：GLM-5.2（744B/40B MoE，1M 上下文，MIT 开源）的架构创新——IndexShare 跨层索引复用、MLA 低秩注意力、MoE 路由、Slime RL 训练框架、MTP 改进、国产算力 Day-0 适配。 目标读者：做 LLM 推理/训练性能分析、通信拓扑设计、并行策略选型的工程师。

范围与边界

包含：GLM-5.2 完整模型配置与代际定位；IndexShare 的 F/S 层共享机制与 2.9× FLOPs 降幅；MLA + DSA 混合注意力系统；MoE 256 路由专家 + top-8 激活；Slime RL 四阶段训练与 OPD 蒸馏；MTP 投机解码改进；Effort Level 推理预算；Day-0 国产算力适配方案。
不包含：通用 MLA/MoE/DSA 机制原理（见 06-大模型解构）；DeepSeek-V4 架构对比（本章仅对比差异，完整调研见 02-DeepSeek-V4）；集合通信原语与并行策略通信模式（见 interconnect）。

GLM-5.2 完整配置

以下参数来源于 HuggingFace 官方 config.json[1]，后续各节默认引用此表。

参数	数值	说明
总参数 / 激活参数	744B / ~40B	激活比 5.4%
层数 $L$	78	前 3 层 dense，后 75 层 MoE
Hidden dim $d$	6144	—
Attention heads $n_h$	64	Q/KV 同数量，非 GQA
QK head dim	256	NoPE 192 + RoPE 64
MLA Q 低秩投影	2048	$q_{\text{lora\_rank}}$
MLA KV 低秩投影	512	$kv_{\text{lora\_rank}}$
MoE 路由专家 / 共享专家	256 / 1	—
每 token 激活专家	8 (路由) + 1 (共享)	—
Expert FFN 中间维	2048	SwiGLU
Dense FFN 中间维	12288	仅前 3 层
RoPE theta	8,000,000	交错模式
词表	154,880	—
最大位置编码	1,048,576	1M tokens
IndexShare indexer	32 头 $\times$ 128 维	top-K = 2048
IndexShare 共享频率	每 4 层	1/4 保留率
MTP 层数	1	—
训练 tokens	28.5T	—
精度 / 许可	BF16 / MIT	权重 1.51 TB
per-token per-layer KV cache	BF16 = 1152 bytes / FP8 ~640 bytes (per-tensor) ~ 656 bytes (per-group)	MLA 共享 K/V latent (512) + RoPE key (64)；按量化粒度浮动；详见 03-attention § KV cache 字节口径
1M 上下文总 KV cache	BF16 ≈ 88 GB / FP8 ≈ 49 GB	78 层 × 1M token × per-token per-layer；HiSparse 通过 GPU 热缓冲 + CPU 冷存储承接

@tbl-glm52-config GLM-5.2 完整模型配置

GLM 代际定位

GLM-5.2 的演进路径分四代，每代换一次注意力机制并跨一档上下文长度：

代	总参 / 激活	注意力	上下文	关键跃升
GLM-4	9B / dense	MHA + GQA	128K	首次进入长上下文，dense 架构
GLM-5	355B / 32B MoE	MLA + 全注意力	128K	转入 MoE，引入 MLA 压 KV
GLM-5.1	355B / 32B MoE	MLA + DSA	200K	全量 DSA 替代全注意力，indexer 成为新瓶颈
GLM-5.2	744B / 40B MoE	MLA + DSA + IndexShare	1M	F/S 层跨层复用消掉 3/4 indexer，1M 下每 token FLOPs 降至 1/2.9

@tbl-glm52-lineage GLM 代际演进

本代的核心跃升不在模型规模（参数仅 2× GLM-5），而在把 1M 无损上下文从学术方案推到工程落地——IndexShare 解决了上一代 DSA 的 indexer $O(L^2)$ 瓶颈。

名词定义

本章节子文档默认以下名词已定义。通用名词（MLA / MoE / DSA / MTP / RoPE）见 02-DeepSeek-V4 名词定义。

名词	定义
IndexShare	GLM-5.2 的跨层索引复用机制：每 4 层共享一个轻量 indexer，F 层计算 top-K 索引，S 层直接复用。学术名 IndexCache
DSA（GLM 语境）	GLM 系的 Dynamic Sparse Attention：lightning indexer 对所有 token 打分 + top-K 选择（与 DeepSeek 的 DSA 同名异义，DS 的 DSA 含压缩+选择混合）
F 层 / S 层	Full Layer（保留完整 indexer）/ Shared Layer（复用 F 层索引）。GLM-5.2 采用 1:3 的 F/S 比例
Slime RL	智谱开源的异步 RL 训练框架：SGLang 推理 + Megatron 训练解耦在不同 GPU，TITO Gateway 截获 token 级 log-prob 做重要性采样
OPD	On-Policy Cross-Stage Distillation：双 teacher checkpoint + reverse KL 的 token 级蒸馏，防灾难性遗忘
Effort Level	GLM-5.2 推理预算机制：High / Max 两档，Max 比 High 多消耗约 55% 推理 token
KV8 / KV FP8	KV cache 8-bit 量化，实际实现为 FP8 E4M3 而非 INT8；作用在 MLA 512 维 latent 上（SGLang per-tensor scale，vLLM per-head）；per-token 字节 1152 → ~~640（SGLang per-tensor）~~ 656（per-group=128 alt）。详见 03-attention § KV cache 量化
HiSparse	SGLang 的长上下文推理引擎：GPU 上保留 6144 槽位的"热"KV，完整 KV 放 CPU pinned memory，DSA top-K 命中后按需 swap-in
LayerSplit	推理引擎的细粒度层间 KV 分片：把 78 层 KV 按层段切到不同 device，配合 PP/EP 减小单卡 KV 压力
MTP	Multi-Token Prediction：单次 forward 预测 $n_{\text{steps}}$ 个 token 的投机解码头，GLM-5.2 中 $n_{\text{steps}}=7$
KVShare	MTP 多预测步的 KV 复用：第 1 步算出的 KV cache 供后续 6 步共用，消除训推分布不一致

@tbl-glm52-glossary 本章共享名词

子文档索引

#	文档	一句话
02	`02-indexshare.md`	IndexShare 的 F/S 机制 + lightning indexer 算子分解（Q/K 投影、ReLU、FP8 per-block + Hadamard）、F 层 cache 字节口径、2.9× FLOPs 比 vs 1.82× 实测延迟订正、batch/TP/PP 衰减、Training-free vs Training-aware 部署、与 NSA/MoBA/HySparse 的差异
03	`03-attention.md`	MLA 五个 GEMM 完整链路、Absorb 技巧（decode 走 latent 空间）、NoPE+RoPE 拆分原因、KV cache 字节口径（BF16 1152 / FP8 656）、KV FP8 ≠ INT8 术语订正、LayerSplit mmap 共享、HiSparse 三步流水耦合、prefill+decode 算子级表、与 DSV4 路线对比
04	`04-moe.md`	路由 4 步完整公式（sigmoid → +bias → 归一化 → ×2.5）、noaux_tc bias EMA 机制（γ=0.001）、SwiGLU 三矩阵算子、单 token MoE 算子表、EP all-to-all 通信公式（含 hierarchical 两步分解）、TBO overlap 在 S 层失效、与 DSV3/V4/Mixtral/Qwen3 全谱对比、训练稳定性技术核查
05	`05-training.md`	Muon + Muon Split 优化器、Slime 内部协议（Data Buffer dict-of-list / Weight Sync 4 路径 / Ray Actor）、GRPO + IcePop 硬门控（KL=0）、TIR 接口（ToRA 风格 4 special token）、Reward 全程 binary ORM、OPD 两种公式区分、torch.topk 故障、100K 昇腾 + 256 H100 集群
06	`06-inference.md`	Effort Level system prompt 注入机制 + 业界对比、MTP 7-step linear chain + KVShare + TV loss、HiSparse 通信路径、TITO Gateway 协议、EP all-to-all 公式、vLLM/SGLang 部署 flag 完整矩阵、8 家国产卡 FP8/FlashMLA/AllToAll 三大技术断层、CloudMatrix 384 vs NVL72、业界定价对比

@tbl-glm52-index 子文档索引

参考资料

HuggingFace GLM-5.2 config.json. https://huggingface.co/zai-org/GLM-5.2/blob/main/config.json

范围与边界​

GLM-5.2 完整配置​

GLM 代际定位​

名词定义​

子文档索引​

参考资料​