推理部署

Effort Level + MTP 投机解码 + HiSparse/TITO/EP 通信路径 + 8 家国产卡 Day-0 适配，MIT 开源

核心要点：

Effort Level：通过 Jinja2 chat template 注入 Reasoning Effort: Max/High 标记；单 checkpoint 共享权重，模型训练中学会调整 <think> 深度

MTP n=7 是 linear chain（参数共享，1 个 MTP layer 复用 7 次），KVShare + IndexShare + 端到端 TV loss 让接受长度 4.56→5.47（+20%）

HiSparse：GPU 热缓冲 + CPU pinned memory + DSA top-K 驱动 H2D swap；当前同步路径（async draft），throughput +3% 到 +192%

TITO Gateway：训推跨集群协议，HTTP 轨迹 + NCCL/disk 权重同步 + Delta Weight Sync + consistent hashing DP-aware routing

EP 通信：层数 80→GLM-5.2 的 78 / 75 MoE，hierarchical all-to-all intra/inter-node overlap，64 EP 单 forward 929 MB

国产卡三大技术断层：FP8 / FlashMLA 等价 / All-to-all——只有 3 家原生 FP8（昇腾、摩尔线程、平头哥真武）

定价 $1.40/$4.40：比 Claude Opus 4.8 / GPT-5.5 便宜 3.6-7×，比 DSV3.2 贵 5×

前置阅读

GLM-5.2 完整配置 → 3.1 总览
MTP IndexShare + KVShare 在注意力层的机制 → 3.2 IndexShare § MTP
HiSparse 与 attention 计算的耦合（kernel 流） → 3.3 注意力架构 § HiSparse 与 attention 计算的耦合
Slime RL 与 TITO 训推通信的全貌 → 3.5 Slime RL 训练 § TITO Gateway

Effort Level：System Prompt 注入式推理预算

GLM-5.2 借鉴 DSV4 的 reasoning_effort 机制，提供 High / Max 两档思考强度[1]。底层机制不是 sampling 参数差异、不是 checkpoint fork，而是通过 Jinja2 Chat Template 在请求预处理时向 system prompt 注入一行标记[2]：

Reasoning Effort: Max

或 High。模型在训练中学会根据该标记自主调整 <think> 链深度——不是显式 token budget 截断（区别于 Anthropic 的 budget_tokens 硬上限）。单 checkpoint，两档共享同一套权重。

API 暴露

引擎	字段路径	默认
Z.ai 官方 API	顶层 body `reasoning_effort: "max" \| "high"`	Max
vLLM	`extra_body={"chat_template_kwargs": {"reasoning_effort": "high"}}`	Max
SGLang	chat template kwargs 同上	Max
关闭思考	`enable_thinking: false`	—

@tbl-glm52-effort-api Effort Level API 字段

任何非 "high" 的值都走 Max——这是默认偏激进的设计。

Token 消耗口径

HF blog 给的口径是 Max 比 High 多约 +55% output token[1]；社区第三方 SDK 文档[3]观察到的 Max ~85k / High ~42k（对应 +100%）与 HF blog 数字不一致——可能因 benchmark 平均口径不同。本节诚实标注两个公开口径，未做单点裁定。

与业界对应物对比

模型	档位数	控制方式
OpenAI o-series	3 (low / medium / high)	隐式 token budget
GLM-5.2	2 (High / Max)	System prompt 注入 + 训练学会自调
Anthropic Claude extended thinking	连续值	`budget_tokens: int` 显式硬上限

@tbl-effort-vs-industry Effort 控制谱

GLM-5.2 介于两端——比 OpenAI 少一档（无 Low，但 enable_thinking: false 承担"零思考"角色），比 Anthropic 粗（无精细数值预算）。

MTP 投机解码完整协议

GLM-5.2 的 MTP（Multi-Token Prediction）是投机解码（speculative decoding）的 draft model。下面把 head 结构、draft + verify 流、rejection sampling 协议挖到完整[1]。

Head 结构：1 layer 共享，7 步 sequential

GLM-5.2 的 MTP 直接沿用 DSV3 的 sequential 模板（）：每一步是一个独立 module（"MTP Module 1/2/..."），输入是上一步预测的 token + 主模型 embedding，输出经独立 Cross-Entropy 训练。GLM-5.2 把 module 数压到 1 通过参数共享展开 7 次。

MTP 模块链：Main Model → MTP Module 1 → MTP Module 2 → ...，每步共享 Embedding 与 Output Head。源：DeepSeek-V3 paper Fig 3（GLM-5.2 把 N module 压到 1 共享）@fig-glm52-mtp-chain

mtp_layers=1，但通过参数共享 + 7 步 sequential 展开实现 $n=7$ 预测：

单套 MTP transformer 层权重被复用 7 次，内存等同 1 层
拓扑是 linear chain（每步 top-k=1），不是 balanced binary tree
前一步的 draft token embedding 与主模型 hidden state 拼接后送入下一步

Draft + Verify 算子流

Draft 阶段（生成 7 个候选 token）：

主模型先跑一次 forward，得到 hidden state $h$ 与首 token
把 $h$ 与上一步 draft token embedding 拼接 → 送入 MTP layer
复用主模型的 FlashMLA / DSA kernel（不为 MTP 单独维护 kernel）
KVShare：所有 7 步 draft 只使用主模型的 KV cache，不为 MTP 单独维护 KV——消除 GLM-5.1 训推 KV 分布漂移
IndexShare on MTP：7 步中只在 step 1 算 top-K=2048 索引，后续 6 步复用（HF config index_share_for_mtp_iteration: true[4]）

Verify 阶段：7 个 draft token 拼入序列，主模型做单次 prefill-style forward，输出每位置的 target logits $p_{\text{target}}$。同步算 draft logits $p_{\text{draft}}$（draft 阶段已记录）。

Rejection Sampling 协议

标准协议（Leviathan 2022[5]）：

$$\begin{equation} \alpha_i = \min\!\left(1, \frac{p_{\text{target}}(x_i)}{p_{\text{draft}}(x_i)}\right) \label{eq:mtp-accept-prob} \end{equation}$$

接受时保留 $x_i$；拒绝时从归一化余分布 $\text{normalize}(\max(0,\, p_{\text{target}} - p_{\text{draft}}))$ 重采样。

端到端 TV loss：GLM-5.2 的核心创新

接受率 $\alpha$ 与 draft / target 的 Total Variation 距离有直接关系：

$$\begin{equation} \mathbb{E}[\alpha] = 1 - \mathrm{TV}(p_{\text{target}},\, p_{\text{draft}}) \label{eq:mtp-tv-accept} \end{equation}$$

GLM-5.2 直接用 TV 距离作为 MTP 训练 loss[1]——最小化 TV 等价于最大化期望接受率，比 KL 散度的代理更直接、对小 draft head 更优。

接受长度消融

改进	接受长度	增量
Baseline (GLM-5.1 MTP)	4.56	—
+ IndexShare + KVShare	5.10	+0.54
+ Rejection Sampling 改进	5.29	+0.19
+ 端到端 TV Loss	5.47	+0.18

@tbl-mtp-ablation MTP 改进消融（GLM-5.2，coding 任务）

总计接受长度 +20%，对应 throughput ≈ 1.5-2× 提升[1]。

$n$ 训练 vs 部署的差异：模型训练支持的预测步数 $n=7$（HF config），但 vLLM/SGLang 部署 recipes 默认推荐 num_speculative_tokens=5——部署时按显存 / kernel launch 开销折中，常用比训练上限略小的步数以避免长链 reject 后浪费 verify 算力。两者不矛盾，是不同层面（模型能力 vs 部署默认）。

与 EAGLE / Medusa 对比

维度	GLM-5.2 MTP	EAGLE	Medusa
Head 结构	1 layer × 7 步共享 (sequential chain)	feature-level autoregressive	多 MTP head 并行
独立 KV cache	无（KVShare）	有	无 attention
索引 / 路由复用	IndexShare（仅 step 1）	无	不适用
训练 loss	TV loss 直接优化 $\alpha$	feature MSE	cross-entropy
Draft 接受长度	5.47 (coding)	5-7（benchmark 不同）	~3-5

@tbl-mtp-vs-spec-decoding MTP 与主流投机解码对比

GLM-5.2 的优势：KVShare 零额外 KV 开销 + TV loss 直接优化接受率 + 原生集成主模型 checkpoint。

HiSparse 的通信路径：GPU↔CPU KV swap

1M 上下文下，即便经过 MLA + KV FP8 压缩，78 层的 KV cache 总量仍远超单卡显存。HiSparse 的解法是把 KV cache 分层存储——GPU HBM 上只保留近期高频访问的"热"槽位，完整 KV 放在 CPU pinned memory[6]。

数据通路

HiSparse 的 swap-in kernel 工作流程[6]：

Top-K cache miss 检测：DSA indexer 算出本 step 的 top-K 索引后，比对设备 buffer，找出未命中的位置
LRU 淘汰：从设备 buffer 中选淘汰候选（LRU 策略）
H2D 拉取：更新 page table，从 host memory 异步 DMA 拉取所需 KV 条目到 device

关键参数：device_buffer_size 在 4096-6144 slot 区间（slot = KV page，page size 16 token）；host_to_device_ratio（host 存储量 / device buffer）= 8-10。整套数据通路如。

HiSparse 数据通路：Prefill instance 把 KV 暂存到 Host Memory；Decode instance 由 Top-K Selector 触发 Swap-in Kernel 把 miss 页拉到 GPU HBM Hot Device Buffer，写回 host。源：LMSYS HiSparse blog@fig-glm52-hisparse-swap

传输协议与带宽口径

HiSparse 的 H2D 路径走 pinned memory + cudaMemcpyAsync 而非 Unified Memory[工程推断]——UM 的隐式 page fault 不适合推理关键路径。带宽实际可用范围由 host-device 链路决定（PCIe Gen4 ~32 GB/s 或 Gen5 ~64 GB/s 单向，NVLink-C2C 视 SKU 而定），官方未给具体带宽数字。

性能口径

HiSparse 在 32K-1024K request length 上对 GLM-5.1 的 throughput 提升 3× - 5×[6]——上限发生在最长 context、最严显存压力下；短 context 收益小（接近 1×）。这是 HiSparse 的设计特征：解决"放不下"，不是"算得快"。

与 attention 计算耦合细节、slot=page 单位、搬的是 latent 而非上投影详见 03-attention § HiSparse 与 attention 计算的耦合。

TITO Gateway：训推协同的通信协议

GLM-5.2 沿用 GLM-5 引入的 TITO（Token-In Token-Out）Gateway[7]，是 Slime RL 框架中跨集群通信的核心。"TITO" 一词指训练管线消费的 token 流与推理引擎产出的 token 流逐字节对齐——避免重新 tokenize 引起的训练-推理分布漂移。

通信拓扑

Slime 把推理（SGLang）和训练（Megatron）放在不同 GPU 集群（disaggregated 模式），靠 TITO Gateway 协调：

数据	协议	频率
轨迹（token IDs + log-prob metadata）	HTTP API[8]	每个 rollout episode
权重同步（colocated）	NCCL `UpdateWeightFromTensor`	RL 训练每轮
权重同步（disaggregated）	NCCL 直连 / disk checkpoint 热加载 / Delta Weight Sync	RL 训练每轮

@tbl-tito-channels TITO Gateway 通信通道

Delta Weight Sync 是 GLM-5 的工程优化——大模型全量权重同步带宽开销大，只传字节级 diff（详见 05-training § Weight Sync 4 路径）。

DP-Aware Routing

TITO Gateway 用 consistent hashing 把同一 agent instance 的所有请求路由到同一 DP rank[7]，最大化 KV cache locality——RL 多步对话中后续 step 复用前面 step 的 KV，避免跨 rank 重算或拉取。这是 RL agent 场景下的特化优化，常规 inference 不需要。

GLM-5.2 的 delta

公开资料未见 GLM-5.2 在 TITO 协议层面相对 GLM-5 有新改动。沿用 [7]。

EP all-to-all：层数缩减 + Hierarchical 通信

GLM-5.2 的 MoE 部分依赖 EP（Expert Parallelism）做 token-to-expert 路由的跨卡分发，每 MoE 层两次 all-to-all（dispatch + combine）。GLM-5 引入了两项 EP 通信优化，GLM-5.2 沿用[7]：

层数选择

GLM-5 把层数从 GLM-4.5 的 128 降到 80，GLM-5.2 进一步到 78（含 3 dense + 75 MoE）[4]。明确为了"minimize expert parallelism communication overhead"[7]——all-to-all 次数 ∝ MoE 层数。

Hierarchical All-to-All

GLM-5 训练栈对 long-context QKV tensor 通信使用 hierarchical all-to-all，显式拆分 intra-node（NVLink）和 inter-node（RDMA/IB）两层做 overlap[7]。这与业界 MegaScale 风格类似。

MoE token dispatch 是否也走分层 all-to-all 公开资料未明说——[工程推断] 大概率是，但无 verbatim 支撑。

通信量公式与算例

EP 通信公式与 64 EP / 929 MB / forward 算例（仅 attention all-reduce 的 13%）详见 04-moe § EP 通信成本建模。

TBO overlap 在 S 层失效

SGLang 的 Two-Batch Overlap 把 attention 与 EP all-to-all 重叠，但 IndexShare S 层 attention FLOPs 降至正常 0.2%——TBO 重叠条件不成立，EP 通信会裸露在 critical path 上（详见 04-moe § TBO overlap 在 S 层失效）。

vLLM / SGLang 部署配方

GLM-5.2 在 vLLM 和 SGLang 上有官方 recipes[2]，关键 launch flag 整理如下。

完整 flag 矩阵

Flag	vLLM	SGLang	典型值
张量并行	`--tensor-parallel-size`	`--tp`	8
流水并行	`--pipeline-parallel-size`	`--pp-size`	2（多节点）
Expert 并行	`--enable-expert-parallel`	`--ep`	flag / 4
数据并行	`--data-parallel-size`	`--dp`	2
KV cache 精度	`--kv-cache-dtype fp8_e4m3`	自动（Blackwell fp8 / Hopper bf16）	fp8_e4m3
最大长度	`--max-model-len`	—	262144 ~ 1048576
并发请求	`--max-num-seqs`	`--max-running-requests`	32-48
Chunked prefill	`--enable-chunked-prefill --chunked-prefill-size`	同	32768（与 HiSparse page 对齐）
MTP 投机解码	`--speculative-config.method=mtp --num_speculative_tokens N`	`--speculative-algorithm EAGLE --speculative-num-steps N`	N=5 推荐
TBO / DBO	`--enable-dbo`	`--enable-two-batch-overlap`	flag
HiSparse	—	`--enable-hisparse --hisparse-config '{...}'`	—
EP all-to-all 后端	`--all2all-backend deepep_*`	`--moe-a2a-backend deepep`	deepep
DP attention	—	`--enable-dp-attention`	flag
Prefix cache	`--enable-prefix-caching`	默认开	flag
Reasoning parser	`--reasoning-parser glm45`	—	glm45
Tool call parser	`--tool-call-parser glm47`	—	glm47

@tbl-glm52-launch-flags vLLM / SGLang 部署 flag 完整清单

硬件门槛与配置模板

配置	硬件	上下文上限	备注
标准	8 × H200 (640 GB HBM)	256K	FP8 权重 744 GB > 640 GB，须 HiSparse offload
1M context	8 × B200 (1536 GB) 或 16 × H200 + HiSparse	1M	1M 显存压力主导
CloudMatrix 384	384 × Ascend NPU	128K（当前验证）	vllm-ascend 路径

@tbl-glm52-hardware GLM-5.2 部署硬件门槛

关键约束：FP8 权重就 744 GB——8 × H200 装不下完整权重 + KV cache，必须借 HiSparse 把冷 KV 推到 CPU。

Chunked prefill 与 HiSparse 对齐

chunked-prefill-size 推荐 32768 token——这与 HiSparse 的 page size 16 对齐（32768 / 16 = 2048 pages/chunk，便于 swap-in batch 化）[2]。

国产卡 Day-0 适配：三大技术断层

GLM-5.2 发布当日完成 8 家国产卡推理适配（比 GLM-5 多 1 家，新增平头哥真武 PPU）。但适配深度差异巨大——关键短板集中在三个技术点[9]：

8 家芯片关键能力矩阵

厂商	卡型	Collective	FP8 原生	FlashMLA 等价	SGLang 主线
华为 Ascend	910B / 950	HCCL (EP320 验证)	✅ Cube Unit	✅ AMLA (86.8% FLOPS)	✅
摩尔线程	MTT S5000	MCCL	✅ 首批国产原生	✅ MATE	✅ (2026-05 入主线)
平头哥真武	PPU 810E	DeepEP (MoE 专用)	✅ (DeepEP 量化路径)	未公开	✅ (0.5.12)
沐曦	C500	MCCL (EP144)	❌ BF16	✅ MetaX-MACA/FlashMLA (Gitee)	✅ (0.5.4)
海光	DCU K100 / Z100	RCCL (DTK ≥24.04)	❌ BF16	未公开	未公开
寒武纪	MLU 590 / 690	CNCL（AllToAll 未公开）	⚠ 探索阶段	未公开	未公开
昆仑芯	XPU P800	BKCL（AllToAll 未公开）	❌ BF16	未公开	✅
壁仞	BR166	BRCCL（AllToAll 未公开）	❌ BF16	未公开	✅

@tbl-glm52-domestic-chips GLM-5.2 国产卡 Day-0 适配能力矩阵

三大技术断层

FP8 原生：只有 3 家——昇腾、摩尔线程、平头哥。其余 5 家须以 BF16 跑，FP8 权重 744 GB → BF16 需 1.5 TB 显存，集群规模压力翻倍
FlashMLA 等价：只有华为 AMLA 和沐曦 MetaX 公开，其余 6 家"未公开"，DSA 稀疏注意力性能损失未知
All-to-All：华为 HCCL（EP320 验证）、沐曦 MCCL（EP144）、海光 RCCL、平头哥 DeepEP 已公开支持；寒武纪 / 昆仑芯 / 壁仞 / 摩尔线程的 AllToAll 公开资料无法确认

华为 CloudMatrix 384

华为 Day-0 适配方案的旗舰是 CloudMatrix 384 超节点（详见 arXiv:2506.12708[9]）：

维度	CloudMatrix 384	NVL72
规模	384 NPU/Pod	72 GPU/rack
Scale-out 带宽	25 GB/s/die	~5.5 GB/s/die
Scale-up 带宽	392 GB/s	1800 GB/s
功耗比	4.1×	—

@tbl-cm384-vs-nvl72 CloudMatrix 384 vs NVL72

优势：scale-out 带宽 4.5× NVL72，适合大 EP（EP320 已论文验证）
代价：scale-up 带宽仅 NVL72 的 22%，功耗 4.1×
对 GLM-5.2 意义：78 层 + 256 expert 配 CloudMatrix 384 的 EP320 通信优势契合度高，但单 NPU 算力密度被 scale-up 带宽拖累，需要 hierarchical all-to-all 弥补

当前没填的空格

寒武纪 / 海光 / 平头哥 FlashMLA 等价、昆仑芯 / 壁仞 / 摩尔线程 AllToAll 实测——这片数据空白让"8 家全适配"的实际生产可用性仍有不确定性。

业界定价对比

GLM-5.2 官方价 $1.40 / $4.40 per M tokens（输入 / 输出，比 3.14×）[10]。其他模型价格来自第三方汇总（DeepSeek 官方 API / OpenAI 官方价 / Anthropic 官方价；GLM-5.2 第三方价来自 OpenRouter / GMI / Fireworks）[11]：

模型	输入 $/M	输出 $/M	输入/输出比	上下文	相对 GLM-5.2
DeepSeek V4 Flash	$0.14	$0.28	2.0×	64K	10× 便宜
DeepSeek V3.2	$0.28	$0.42	1.5×	64K	5× 便宜
DeepSeek V4	$0.30	$0.50	1.7×	128K	4.7× 便宜
GLM-5.2 (Z.ai)	$1.40	$4.40	3.14×	1M	基准
GLM-5.2 (GMI FP8)	$1.12	$3.52	3.14×	1M	0.8×
Claude Opus 4.8	$5.00	$25.00	5.0×	200K	3.6× 贵
GPT-5.5	$5.00	$30.00	6.0×	128K	3.6× 贵

@tbl-glm52-pricing 业界推理定价对比

两端定位：比闭源旗舰（Claude / GPT）便宜 ~3.6×（按输入价），比 DeepSeek 系列贵 5× 输入 / 10× 输出——GLM-5.2 的输入/输出比 3.14× 也高于 DSV3.2 的 1.5×，对长输出场景成本压力更明显。GLM-5.2 占的是"开源 + 1M context + 工程可靠"的中间档。

缓存优化：GLM-5.2 缓存输入 $0.26/M，约为标准输入价的 18.6%——多轮 agent 场景下成本进一步降低。

开源生态

协议：MIT License，无区域限制，可商用、修改、分发
权重：HuggingFace（zai-org/GLM-5.2）+ ModelScope 同步开源
推理框架：SGLang 原生（HiSparse + DSA backend）、vLLM 原生、Slime RL 内置 SGLang rollout
第三方提供商：Together / Fireworks / GMI / OpenRouter 等，价差最高 1.8×

开放问题

GLM-5.2 是否会出 thinking_budget 数值精细预算（向 Anthropic 风格靠近）
国产卡 5 家未公开 FP8 / FlashMLA / AllToAll 的实测性能
HiSparse async IO overlap 何时合入主线
CloudMatrix 384 对 1M context 的实际部署口径

Takeaway

知识点	核心结论
Effort Level 机制	System prompt 注入（`Reasoning Effort: Max\|High`），单 checkpoint 共享权重
Effort API	Z.ai 顶层 `reasoning_effort`；vLLM `extra_body.chat_template_kwargs`；默认 Max
MTP head 结构	1 layer 共享，7 步 sequential linear chain，参数复用
MTP draft KV	KVShare：使用主模型 KV cache，零额外开销；消除 GLM-5.1 训推漂移
MTP loss	端到端 TV loss 直接优化 $\mathbb{E}[\alpha] = 1 - \mathrm{TV}$，比 KL 代理优
MTP 接受长度	4.56 → 5.47 (+20%)，对应 throughput 1.5-2×
部署 launch flag	17+ 关键 flag 矩阵；HiSparse / TBO / EP / chunked prefill 是 1M 部署四件套
硬件门槛	8 × H200 须 HiSparse offload；1M context 需 8 × B200 或 16 × H200
国产卡三大断层	FP8 / FlashMLA 等价 / AllToAll——只有 3 家原生 FP8（华为 / 摩尔线程 / 平头哥）
CloudMatrix 384	scale-out 带宽 4.5× NVL72，scale-up 仅 22%，功耗 4.1×
定价	$1.40/$4.40，输入价比 Claude/GPT 便宜 ~3.6× / 比 DSV3.2 贵 5×；输出价贵 DSV3.2 10×；缓存输入 18.6%

参考资料

HuggingFace, GLM-5.2 Blog, 2026-06. https://huggingface.co/blog/zai-org/glm-52-blog
vLLM Recipes: GLM-5.2 Deployment. https://recipes.vllm.ai/zai-org/GLM-5.2
DataCamp, Hands-on Guide to GLM-5.2, 2026. https://www.datacamp.com/blog/glm-5-2
HuggingFace GLM-5.2 config.json. https://huggingface.co/zai-org/GLM-5.2/blob/main/config.json
Leviathan et al., Fast Inference from Transformers via Speculative Decoding, arXiv:2211.17192, 2022. https://arxiv.org/abs/2211.17192
LMSYS, SGLang HiSparse: Long-Context Inference, 2026-04. https://lmsys.org/blog/2026-04-10-sglang-hisparse/
GLM-5: from Vibe Coding to Agentic Engineering, arXiv:2602.15763, 2025. https://arxiv.org/abs/2602.15763
Slime RL Documentation. https://thudm.github.io/slime/
Huawei CloudMatrix384: Serving Large Language Models, arXiv:2506.12708, 2025. https://arxiv.org/abs/2506.12708
Z.ai API Documentation. https://docs.z.ai/guides/llm/glm-5.2
价格汇总：DeepSeek API (https://api-docs.deepseek.com/quick_start/pricing)、OpenAI Pricing (https://openai.com/api/pricing/)、Anthropic Pricing (https://www.anthropic.com/pricing)、OpenRouter Models (https://openrouter.ai/models)，2026-06 抓取。

前置阅读​

Effort Level：System Prompt 注入式推理预算​

API 暴露​

Token 消耗口径​

与业界对应物对比​

MTP 投机解码完整协议​

Head 结构：1 layer 共享，7 步 sequential​

Draft + Verify 算子流​

Rejection Sampling 协议​

端到端 TV loss：GLM-5.2 的核心创新​

接受长度消融​

与 EAGLE / Medusa 对比​

HiSparse 的通信路径：GPU↔CPU KV swap​

数据通路​

传输协议与带宽口径​

性能口径​

TITO Gateway：训推协同的通信协议​

通信拓扑​

DP-Aware Routing​

GLM-5.2 的 delta​

EP all-to-all：层数缩减 + Hierarchical 通信​

层数选择​

Hierarchical All-to-All​

通信量公式与算例​

TBO overlap 在 S 层失效​

vLLM / SGLang 部署配方​

完整 flag 矩阵​

硬件门槛与配置模板​

Chunked prefill 与 HiSparse 对齐​

国产卡 Day-0 适配：三大技术断层​

8 家芯片关键能力矩阵​

三大技术断层​

华为 CloudMatrix 384​

当前没填的空格​

业界定价对比​

开源生态​

开放问题​

Takeaway​

参考资料​

延伸阅读​