总览
本章节范围:GLM-5.2(744B/40B MoE,1M 上下文,MIT 开源)的架构创新——IndexShare 跨层索引复用、MLA 低秩注意力、MoE 路由、Slime RL 训练框架、MTP 改进、国产算力 Day-0 适配。 目标读者:做 LLM 推理/训练性能分析、通信拓扑设计、并行策略选型的工程师。
范围与边界
- 包含:GLM-5.2 完整模型配置与代际定位;IndexShare 的 F/S 层共享机制与 2.9× FLOPs 降幅;MLA + DSA 混合注意力系统;MoE 256 路由专家 + top-8 激活;Slime RL 四阶段训练与 OPD 蒸馏;MTP 投机解码改进;Effort Level 推理预算;Day-0 国产算力适配方案。
- 不包含:通用 MLA/MoE/DSA 机制原理(见 06-大模型解构);DeepSeek-V4 架构对比(本章仅对比差异,完整调研见 02-DeepSeek-V4);集合通信原语与并行策略通信模式(见 interconnect)。
GLM-5.2 完整配置
以下参数来源于 HuggingFace 官方 config.json[1],后续各节默认引用此表。
| 参数 | 数值 | 说明 |
|---|---|---|
| 总参数 / 激活参数 | 744B / ~40B | 激活比 5.4% |
| 层数 $L$ | 78 | 前 3 层 dense,后 75 层 MoE |
| Hidden dim $d$ | 6144 | — |
| Attention heads $n_h$ | 64 | Q/KV 同数量,非 GQA |
| QK head dim | 256 | NoPE 192 + RoPE 64 |
| MLA Q 低秩投影 | 2048 | $q_{\text{lora\_rank}}$ |
| MLA KV 低秩投影 | 512 | $kv_{\text{lora\_rank}}$ |
| MoE 路由专家 / 共享专家 | 256 / 1 | — |
| 每 token 激活专家 | 8 (路由) + 1 (共享) | — |
| Expert FFN 中间维 | 2048 | SwiGLU |
| Dense FFN 中间维 | 12288 | 仅前 3 层 |
| RoPE theta | 8,000,000 | 交错模式 |
| 词表 | 154,880 | — |
| 最大位置编码 | 1,048,576 | 1M tokens |
| IndexShare indexer | 32 头 $\times$ 128 维 | top-K = 2048 |
| IndexShare 共享频率 | 每 4 层 | 1/4 保留率 |
| MTP 层数 | 1 | — |
| 训练 tokens | 28.5T | — |
| 精度 / 许可 | BF16 / MIT | 权重 1.51 TB |
| per-token per-layer KV cache | BF16 = 1152 bytes / FP8 ~640 bytes (per-tensor) ~ 656 bytes (per-group) | MLA 共享 K/V latent (512) + RoPE key (64);按量化粒度浮动;详见 03-attention § KV cache 字节口径 |
| 1M 上下文总 KV cache | BF16 ≈ 88 GB / FP8 ≈ 49 GB | 78 层 × 1M token × per-token per-layer;HiSparse 通过 GPU 热缓冲 + CPU 冷存储承接 |
@tbl-glm52-config GLM-5.2 完整模型配置
GLM 代际定位
GLM-5.2 的演进路径分四代,每代换一次注意力机制并跨一档上下文长度:
| 代 | 总参 / 激活 | 注意力 | 上下文 | 关键跃升 |
|---|---|---|---|---|
| GLM-4 | 9B / dense | MHA + GQA | 128K | 首次进入长上下文,dense 架构 |
| GLM-5 | 355B / 32B MoE | MLA + 全注意力 | 128K | 转入 MoE,引入 MLA 压 KV |
| GLM-5.1 | 355B / 32B MoE | MLA + DSA | 200K | 全量 DSA 替代全注意力,indexer 成为新瓶颈 |
| GLM-5.2 | 744B / 40B MoE | MLA + DSA + IndexShare | 1M | F/S 层跨层复用消掉 3/4 indexer,1M 下每 token FLOPs 降至 1/2.9 |
@tbl-glm52-lineage GLM 代际演进
本代的核心跃升不在模型规模(参数仅 2× GLM-5),而在把 1M 无损上下文从学术方案推到工程落地——IndexShare 解决了上一代 DSA 的 indexer $O(L^2)$ 瓶颈。
名词定义
本章节子文档默认以下名词已定义。通用名词(MLA / MoE / DSA / MTP / RoPE)见 02-DeepSeek-V4 名词定义。
| 名词 | 定义 |
|---|---|
| IndexShare | GLM-5.2 的跨层索引复用机制:每 4 层共享一个轻量 indexer,F 层计算 top-K 索引,S 层直接复用。学术名 IndexCache |
| DSA(GLM 语境) | GLM 系的 Dynamic Sparse Attention:lightning indexer 对所有 token 打分 + top-K 选择(与 DeepSeek 的 DSA 同名异义,DS 的 DSA 含压缩+选择混合) |
| F 层 / S 层 | Full Layer(保留完整 indexer)/ Shared Layer(复用 F 层索引)。GLM-5.2 采用 1:3 的 F/S 比例 |
| Slime RL | 智谱开源的异步 RL 训练框架:SGLang 推理 + Megatron 训练解耦在不同 GPU,TITO Gateway 截获 token 级 log-prob 做重要性采样 |
| OPD | On-Policy Cross-Stage Distillation:双 teacher checkpoint + reverse KL 的 token 级蒸馏,防灾难性遗忘 |
| Effort Level | GLM-5.2 推理预算机制:High / Max 两档,Max 比 High 多消耗约 55% 推理 token |
| KV8 / KV FP8 | KV cache 8-bit 量化,实际实现为 FP8 E4M3 而非 INT8;作用在 MLA 512 维 latent 上(SGLang per-tensor scale,vLLM per-head);per-token 字节 1152 → |
| HiSparse | SGLang 的长上下文推理引擎:GPU 上保留 6144 槽位的"热"KV,完整 KV 放 CPU pinned memory,DSA top-K 命中后按需 swap-in |
| LayerSplit | 推理引擎的细粒度层间 KV 分片:把 78 层 KV 按层段切到不同 device,配合 PP/EP 减小单卡 KV 压力 |
| MTP | Multi-Token Prediction:单次 forward 预测 $n_{\text{steps}}$ 个 token 的投机解码头,GLM-5.2 中 $n_{\text{steps}}=7$ |
| KVShare | MTP 多预测步的 KV 复用:第 1 步算出的 KV cache 供后续 6 步共用,消除训推分布不一致 |
@tbl-glm52-glossary 本章共享名词
子文档索引
| # | 文档 | 一句话 |
|---|---|---|
| 02 | 02-indexshare.md | IndexShare 的 F/S 机制 + lightning indexer 算子分解(Q/K 投影、ReLU、FP8 per-block + Hadamard)、F 层 cache 字节口径、2.9× FLOPs 比 vs 1.82× 实测延迟订正、batch/TP/PP 衰减、Training-free vs Training-aware 部署、与 NSA/MoBA/HySparse 的差异 |
| 03 | 03-attention.md | MLA 五个 GEMM 完整链路、Absorb 技巧(decode 走 latent 空间)、NoPE+RoPE 拆分原因、KV cache 字节口径(BF16 1152 / FP8 656)、KV FP8 ≠ INT8 术语订正、LayerSplit mmap 共享、HiSparse 三步流水耦合、prefill+decode 算子级表、与 DSV4 路线对比 |
| 04 | 04-moe.md | 路由 4 步完整公式(sigmoid → +bias → 归一化 → ×2.5)、noaux_tc bias EMA 机制(γ=0.001)、SwiGLU 三矩阵算子、单 token MoE 算子表、EP all-to-all 通信公式(含 hierarchical 两步分解)、TBO overlap 在 S 层失效、与 DSV3/V4/Mixtral/Qwen3 全谱对比、训练稳定性技术核查 |
| 05 | 05-training.md | Muon + Muon Split 优化器、Slime 内部协议(Data Buffer dict-of-list / Weight Sync 4 路径 / Ray Actor)、GRPO + IcePop 硬门控(KL=0)、TIR 接口(ToRA 风格 4 special token)、Reward 全程 binary ORM、OPD 两种公式区分、torch.topk 故障、100K 昇腾 + 256 H100 集群 |
| 06 | 06-inference.md | Effort Level system prompt 注入机制 + 业界对比、MTP 7-step linear chain + KVShare + TV loss、HiSparse 通信路径、TITO Gateway 协议、EP all-to-all 公式、vLLM/SGLang 部署 flag 完整矩阵、8 家国产卡 FP8/FlashMLA/AllToAll 三大技术断层、CloudMatrix 384 vs NVL72、业界定价对比 |
@tbl-glm52-index 子文档索引
参考资料
- HuggingFace GLM-5.2 config.json. https://huggingface.co/zai-org/GLM-5.2/blob/main/config.json