跳到主要内容

总览

本章节范围:GLM-5.2(744B/40B MoE,1M 上下文,MIT 开源)的架构创新——IndexShare 跨层索引复用、MLA 低秩注意力、MoE 路由、Slime RL 训练框架、MTP 改进、国产算力 Day-0 适配。 目标读者:做 LLM 推理/训练性能分析、通信拓扑设计、并行策略选型的工程师。

范围与边界

  • 包含:GLM-5.2 完整模型配置与代际定位;IndexShare 的 F/S 层共享机制与 2.9× FLOPs 降幅;MLA + DSA 混合注意力系统;MoE 256 路由专家 + top-8 激活;Slime RL 四阶段训练与 OPD 蒸馏;MTP 投机解码改进;Effort Level 推理预算;Day-0 国产算力适配方案。
  • 不包含:通用 MLA/MoE/DSA 机制原理(见 06-大模型解构);DeepSeek-V4 架构对比(本章仅对比差异,完整调研见 02-DeepSeek-V4);集合通信原语与并行策略通信模式(见 interconnect)。

GLM-5.2 完整配置

以下参数来源于 HuggingFace 官方 config.json[1],后续各节默认引用此表。

参数数值说明
总参数 / 激活参数744B / ~40B激活比 5.4%
层数 $L$78前 3 层 dense,后 75 层 MoE
Hidden dim $d$6144
Attention heads $n_h$64Q/KV 同数量,非 GQA
QK head dim256NoPE 192 + RoPE 64
MLA Q 低秩投影2048$q_{\text{lora\_rank}}$
MLA KV 低秩投影512$kv_{\text{lora\_rank}}$
MoE 路由专家 / 共享专家256 / 1
每 token 激活专家8 (路由) + 1 (共享)
Expert FFN 中间维2048SwiGLU
Dense FFN 中间维12288仅前 3 层
RoPE theta8,000,000交错模式
词表154,880
最大位置编码1,048,5761M tokens
IndexShare indexer32 头 $\times$ 128 维top-K = 2048
IndexShare 共享频率每 4 层1/4 保留率
MTP 层数1
训练 tokens28.5T
精度 / 许可BF16 / MIT权重 1.51 TB
per-token per-layer KV cacheBF16 = 1152 bytes / FP8 ~640 bytes (per-tensor) ~ 656 bytes (per-group)MLA 共享 K/V latent (512) + RoPE key (64);按量化粒度浮动;详见 03-attention § KV cache 字节口径
1M 上下文总 KV cacheBF16 ≈ 88 GB / FP8 ≈ 49 GB78 层 × 1M token × per-token per-layer;HiSparse 通过 GPU 热缓冲 + CPU 冷存储承接

@tbl-glm52-config GLM-5.2 完整模型配置

GLM 代际定位

GLM-5.2 的演进路径分四代,每代换一次注意力机制并跨一档上下文长度:

总参 / 激活注意力上下文关键跃升
GLM-49B / denseMHA + GQA128K首次进入长上下文,dense 架构
GLM-5355B / 32B MoEMLA + 全注意力128K转入 MoE,引入 MLA 压 KV
GLM-5.1355B / 32B MoEMLA + DSA200K全量 DSA 替代全注意力,indexer 成为新瓶颈
GLM-5.2744B / 40B MoEMLA + DSA + IndexShare1MF/S 层跨层复用消掉 3/4 indexer,1M 下每 token FLOPs 降至 1/2.9

@tbl-glm52-lineage GLM 代际演进

本代的核心跃升不在模型规模(参数仅 2× GLM-5),而在把 1M 无损上下文从学术方案推到工程落地——IndexShare 解决了上一代 DSA 的 indexer $O(L^2)$ 瓶颈。

名词定义

本章节子文档默认以下名词已定义。通用名词(MLA / MoE / DSA / MTP / RoPE)见 02-DeepSeek-V4 名词定义

名词定义
IndexShareGLM-5.2 的跨层索引复用机制:每 4 层共享一个轻量 indexer,F 层计算 top-K 索引,S 层直接复用。学术名 IndexCache
DSA(GLM 语境)GLM 系的 Dynamic Sparse Attention:lightning indexer 对所有 token 打分 + top-K 选择(与 DeepSeek 的 DSA 同名异义,DS 的 DSA 含压缩+选择混合)
F 层 / S 层Full Layer(保留完整 indexer)/ Shared Layer(复用 F 层索引)。GLM-5.2 采用 1:3 的 F/S 比例
Slime RL智谱开源的异步 RL 训练框架:SGLang 推理 + Megatron 训练解耦在不同 GPU,TITO Gateway 截获 token 级 log-prob 做重要性采样
OPDOn-Policy Cross-Stage Distillation:双 teacher checkpoint + reverse KL 的 token 级蒸馏,防灾难性遗忘
Effort LevelGLM-5.2 推理预算机制:High / Max 两档,Max 比 High 多消耗约 55% 推理 token
KV8 / KV FP8KV cache 8-bit 量化,实际实现为 FP8 E4M3 而非 INT8;作用在 MLA 512 维 latent 上(SGLang per-tensor scale,vLLM per-head);per-token 字节 1152 → 640(SGLang per-tensor) 656(per-group=128 alt)。详见 03-attention § KV cache 量化
HiSparseSGLang 的长上下文推理引擎:GPU 上保留 6144 槽位的"热"KV,完整 KV 放 CPU pinned memory,DSA top-K 命中后按需 swap-in
LayerSplit推理引擎的细粒度层间 KV 分片:把 78 层 KV 按层段切到不同 device,配合 PP/EP 减小单卡 KV 压力
MTPMulti-Token Prediction:单次 forward 预测 $n_{\text{steps}}$ 个 token 的投机解码头,GLM-5.2 中 $n_{\text{steps}}=7$
KVShareMTP 多预测步的 KV 复用:第 1 步算出的 KV cache 供后续 6 步共用,消除训推分布不一致

@tbl-glm52-glossary 本章共享名词

子文档索引

#文档一句话
0202-indexshare.mdIndexShare 的 F/S 机制 + lightning indexer 算子分解(Q/K 投影、ReLU、FP8 per-block + Hadamard)、F 层 cache 字节口径、2.9× FLOPs 比 vs 1.82× 实测延迟订正、batch/TP/PP 衰减、Training-free vs Training-aware 部署、与 NSA/MoBA/HySparse 的差异
0303-attention.mdMLA 五个 GEMM 完整链路、Absorb 技巧(decode 走 latent 空间)、NoPE+RoPE 拆分原因、KV cache 字节口径(BF16 1152 / FP8 656)、KV FP8 ≠ INT8 术语订正、LayerSplit mmap 共享、HiSparse 三步流水耦合、prefill+decode 算子级表、与 DSV4 路线对比
0404-moe.md路由 4 步完整公式(sigmoid → +bias → 归一化 → ×2.5)、noaux_tc bias EMA 机制(γ=0.001)、SwiGLU 三矩阵算子、单 token MoE 算子表、EP all-to-all 通信公式(含 hierarchical 两步分解)、TBO overlap 在 S 层失效、与 DSV3/V4/Mixtral/Qwen3 全谱对比、训练稳定性技术核查
0505-training.mdMuon + Muon Split 优化器、Slime 内部协议(Data Buffer dict-of-list / Weight Sync 4 路径 / Ray Actor)、GRPO + IcePop 硬门控(KL=0)、TIR 接口(ToRA 风格 4 special token)、Reward 全程 binary ORM、OPD 两种公式区分、torch.topk 故障、100K 昇腾 + 256 H100 集群
0606-inference.mdEffort Level system prompt 注入机制 + 业界对比、MTP 7-step linear chain + KVShare + TV loss、HiSparse 通信路径、TITO Gateway 协议、EP all-to-all 公式、vLLM/SGLang 部署 flag 完整矩阵、8 家国产卡 FP8/FlashMLA/AllToAll 三大技术断层、CloudMatrix 384 vs NVL72、业界定价对比

@tbl-glm52-index 子文档索引

参考资料

  1. HuggingFace GLM-5.2 config.json. https://huggingface.co/zai-org/GLM-5.2/blob/main/config.json