跳到主要内容

前沿模型追踪

本章节范围：业界前沿大模型发布的架构调研——每模型一章，覆盖模型架构创新、训练方案、推理工程、生态定位。 目标读者：做 LLM 推理/训练性能分析、通信拓扑设计、并行策略选型的工程师。

范围与边界

包含：重要前沿模型发布的架构深度调研（MoE 路由/注意力机制/训练框架/推理优化/通信需求）、模型间代际演进对比、在国产算力上的部署适配。
不包含：通用 Transformer/MoE/注意力机制入门（假设读者已熟悉，见 06-大模型解构）；集合通信原语本身（见 interconnect/04-集合通信）；LLM 并行策略通用通信模式（见 interconnect/05-LLM并行通信）。

收录标准

纳入本章的模型满足以下至少两项：

架构创新显著：引入新的注意力/残差/路由/训练机制，非单纯规模 scaling
性能对标前沿：在重要 benchmark 上达到或接近同代闭源 SOTA
工程部署有参考价值：在国产算力/开源生态/推理框架上有独特布局

已收录模型

模型	发布时间	总参数/激活	上下文	核心创新	调研文档
DeepSeek-V4	2026-04	1.6T/49B (Pro) / 284B/13B (Flash)	1M	mHC 残差、CSA/HCA 混合注意力、Muon 优化器	02-DeepSeek-V4/
GLM-5.2	2026-06	744B/~40B	1M	IndexShare 稀疏注意力、Slime 训练框架、国产算力 Day-0	03-GLM-5.2/

@tbl-frontier-models-overview 已收录前沿模型总览

子文档索引

02-DeepSeek-V4/ — DeepSeek V4 系列（Pro/Flash）完整架构调研：mHC 残差/Hybrid Attention/MoE/Muon 训练/通信需求（6 篇）
03-GLM-5.2/ — GLM-5.2 (744B/40B MoE) 完整架构调研：IndexShare 跨层索引复用/MLA+DSA 注意力架构/MoE sigmoid 路由/Slime RL 训练/推理部署与国产算力（6 篇）

范围与边界
收录标准
已收录模型
子文档索引