前沿模型追踪
本章节范围:业界前沿大模型发布的架构调研——每模型一章,覆盖模型架构创新、训练方案、推理工程、生态定位。 目标读者:做 LLM 推理/训练性能分析、通信拓扑设计、并行策略选型的工程师。
范围与边界
- 包含:重要前沿模型发布的架构深度调研(MoE 路由/注意力机制/训练框架/推理优化/通信需求)、模型间代际演进对比、在国产算力上的部署适配。
- 不包含:通用 Transformer/MoE/注意力机制入门(假设读者已熟悉,见 06-大模型解构);集合通信原语本身(见 interconnect/04-集合通信);LLM 并行策略通用通信模式(见 interconnect/05-LLM并行通信)。
收录标准
纳入本章的模型满足以下至少两项:
- 架构创新显著:引入新的注意力/残差/路由/训练机制,非单纯规模 scaling
- 性能对标前沿:在重要 benchmark 上达到或接近同代闭源 SOTA
- 工程部署有参考价值:在国产算力/开源生态/推理框架上有独特布局
已收录模型
| 模型 | 发布时间 | 总参数/激活 | 上下文 | 核心创新 | 调研文档 |
|---|---|---|---|---|---|
| DeepSeek-V4 | 2026-04 | 1.6T/49B (Pro) / 284B/13B (Flash) | 1M | mHC 残差、CSA/HCA 混合注意力、Muon 优化器 | 02-DeepSeek-V4/ |
| GLM-5.2 | 2026-06 | 744B/~40B | 1M | IndexShare 稀疏注意力、Slime 训练框架、国产算力 Day-0 | 03-GLM-5.2/ |
@tbl-frontier-models-overview 已收录前沿模型总览
子文档索引
- 02-DeepSeek-V4/ — DeepSeek V4 系列(Pro/Flash)完整架构调研:mHC 残差/Hybrid Attention/MoE/Muon 训练/通信需求(6 篇)
- 03-GLM-5.2/ — GLM-5.2 (744B/40B MoE) 完整架构调研:IndexShare 跨层索引复用/MLA+DSA 注意力架构/MoE sigmoid 路由/Slime RL 训练/推理部署与国产算力(6 篇)