Atlas 950 超节点 (SuperPoD)
8,192 卡单台逻辑机器的芯片规格、系统架构与 UB-Mesh 无收敛全互联方案
核心要点:
- Atlas 950 是华为基于昇腾 950DT + 灵衢 UB 2.0 构建的超节点系统,8,192 NPU 组成单台逻辑机器
- 单卡 1 PFLOPS FP8 / 144 GB HBM / 4 TB/s 带宽;系统总算力 8 EFLOPS / 总内存 1,152 TB
- UB-Mesh 递归直连拓扑实现板内→板间→柜间三级无收敛全互联,总互联带宽 16 PB/s
- UBMMU 统一内存编址让全部 1,152 TB HBM 呈现为单一地址空间,load/store 指令直达远端内存
- 截至 2026-06,所有参数均为厂商宣称、未出货、无第三方实测
名词定义
本文引入的新名词,章共享名词见 1.1 总览 名词定义。
| 名词 | 定义 |
|---|---|
| SuperPoD (超节点) | 华为对单台逻辑机器的称呼:多柜通过 Scale-Up 互联组成的统一算力单元,对外呈现为一台计算机 |
| UB-Mesh | 灵衢 UB 2.0 的递归直连拓扑,板内/板间/柜间三级全互联,64 卡为步长扩展至 8,192 卡 |
| UBMMU (Unified Bus Memory Management Unit) | NPU 内集成的内存管理单元,将 load/store 指令透明翻译为光互联操作,实现远端内存访问 |
| HiZQ 2.0 | 昇腾 950DT 搭载的 HBM 规格,144 GB 容量 + 4 TB/s 带宽 |
| 950DT / 950PR | 昇腾 950 的双芯变体:DT 面向训练+Decode(高带宽 HBM),PR 面向 Prefill+推荐(低成本 HBM) |
@tbl-atlas950-glossary 本文专属名词
昇腾 950DT 芯片规格
核心问题:Ascend 950DT 单卡的算力、内存和互联带宽是多少?
Ascend 950DT 是华为 2025-09 发布的下一代 AI 训练/推理 NPU,单卡 FP8 算力 1 PFLOPS。 芯片分为两个变体:950DT 面向训练和 Decode 阶段,搭载高带宽 HiZQ 2.0 HBM;950PR 面向 Prefill 和推荐推理,使用成本更低的 HiBL 1.0 HBM。双芯策略的核心逻辑是 Prefill 节点对内存带宽要求低于 Decode 节点,分芯可降低集群总成本。
| 维度 | Ascend 950DT | Ascend 950PR | Ascend 910C (上代) |
|---|---|---|---|
| FP8 算力 | 1 PFLOPS | — | 基线 |
| MXFP4 算力 | 2 PFLOPS | — | — |
| 精度格式 | FP8 / MXFP8 / MXFP4 / HiF8 | — | — |
| HBM 容量 | 144 GB (HiZQ 2.0) | — (HiBL 1.0) | — |
| HBM 带宽 | 4 TB/s | — | — |
| 芯片互联带宽 | 2 TB/s | — | 800 GB/s |
@tbl-atlas950-chip 昇腾 950 芯片规格
HiF8 是华为自研的 8-bit 浮点格式,宣称在 FP8 级效率下达到 FP16 级精度。互联带宽 2 TB/s 是上代 910C(800 GB/s)的 2.5×,这个数字决定了单卡在超节点内与其他 NPU 通信的物理上限。
前置阅读:
- 灵衢 UB 协议栈与 UB Switch 拓扑 → 1.15 灵衢总线 (UB)
- NVLink 5.0 协议规格作为对照 → 1.2 NVLink
超节点系统架构
核心问题:8,192 卡如何从单柜组织成一台逻辑机器?
Atlas 950 超节点以"单柜 64 卡"为基本单元,128 个计算柜 + 32 个通信柜组成 8,192 卡系统。 物理部署约 160 个机柜、1,000 m² 占地面积,全液冷散热(PUE ≈ 1.1)。
| 维度 | 参数 |
|---|---|
| 基本单元 | 单柜 64 卡昇腾 950DT |
| 最大规模 | 128 计算柜 = 8,192 卡 |
| 通信柜 | 32 柜(UB Switch 等交换设备) |
| FP8 总算力 | 8 EFLOPS |
| FP4 总算力 | 16 EFLOPS |
| 总 HBM 容量 | 1,152 TB(64 GB × 8,192 卡,统一池化) |
| 总互联带宽 | 16 PB/s |
| 散热方案 | 全液冷,冷板直贴芯片,PUE ≈ 1.1 |
| 部署方式 | 正交架构、零线缆电互联、整机柜预制 |
| 占地面积 | ~160 机柜 / ~1,000 m² |
@tbl-atlas950-system Atlas 950 SuperPoD 系统参数
64 卡为步长的模块化扩展是 Atlas 950 与 NVL72 的关键架构差异。 NVL72 的 NVSwitch 域固定在 72 GPU,超出需要 Scale-Out 网络;Atlas 950 声称可在 64→128→...→8,192 范围内按需扩展且带宽不收敛。这一特性如果成立,意味着超节点内任意两卡之间始终保持全带宽通信,不受传统胖树/Clos 网络的收敛比约束。
华为宣称的 95% 跨 8,192 卡计算效率基于 UB-Mesh 无收敛互联 + 统一内存编程模型,但无第三方验证。同等规模的传统 GPU 集群(InfiniBand/RoCE Scale-Out)在 AllReduce 等通信密集操作上通常只能维持 30-50% MFU。
UB-Mesh 互联拓扑
核心问题:UB-Mesh 如何实现 8,192 卡无收敛全互联?
UB-Mesh 是灵衢 UB 2.0 的拓扑方案,采用板内→板间→柜间三级递归直连,不经过交换机收敛。 这与 NVLink + NVSwitch 的交换架构有本质区别。
板内全互联 → 板间全互联 → 柜间全互联
(PCB) (背板) (光互联)
↓ ↓ ↓
64 卡步长按需扩展至 8,192 卡无收敛
拓扑的关键性能指标:
| 指标 | 数值 | 对比参考 |
|---|---|---|
| 单跳延迟 | 200 ns | NVLink 5.0 单跳 ~200-300 ns |
| 跨柜往返延迟 | 3 μs | 上代 7 μs |
| 全系统 NPU-to-NPU | ~2.1 μs | — |
| 光互联覆盖半径 | 200 m | NVLink 铜缆 ≤2 m |
| 故障检测+切换 | 100 ns 级 | — |
@tbl-atlas950-ubmesh UB-Mesh 拓扑性能指标
UB-Mesh 与 NVSwitch 的架构差异不在带宽数值,而在拓扑范式。 NVSwitch 是交换机架构:GPU 不直连,全部流量经交换机中转,NVSwitch 域大小受交换机 radix 限制(当前 NVLink 5.0 域 = 72 GPU)。UB-Mesh 是直连拓扑:每张卡直接参与互联网络(类似 2D/3D Torus 的思路,但维度数不同),没有集中式交换瓶颈。代价是每张 NPU 必须消耗 2 TB/s 芯片互联带宽用于构造 Mesh,这部分带宽不能全部用于应用通信。
UB-Mesh 的具体拓扑维度(每卡连几个邻居、Mesh 是几维、路由算法)华为未完整公开。 从公开资料推断:
- 板内:64 卡以内,维度未知(推测 ≥3D 直连或全连接)
- 板间:通过背板扩展,维度可能增加
- 柜间:全光互联,利用 200 m 覆盖半径实现跨柜直连
灵衢 UB 2.0 规范 600+ 页已公开,但拓扑定义章节的详细程度未经验证。
统一内存架构
核心问题:UBMMU 统一编址与传统集群内存模型有何本质区别?
UBMMU 让全部 1,152 TB HBM 对软件呈现为单一地址空间,远端内存访问只需一条 load/store 指令。 传统 GPU 集群的跨节点数据搬运路径是 serialize→send→receive→deserialize,每一步都有软件开销;UBMMU 将这个过程压缩为硬件自动完成的地址翻译+光互联传输。
| 维度 | 传统 GPU 集群 | Atlas 950 + UBMMU |
|---|---|---|
| 跨节点数据搬运 | serialize→RDMA send→RDMA recv→deserialize | load/store 指令,UBMMU 硬件翻译 |
| 内存模型 | 分布式内存(各 GPU 私有地址空间) | 统一内存(全局地址空间) |
| 编程模型 | 显式通信(NCCL / MPI) | 隐式通信(load/store 触发硬件搬运) |
| 软件开销 | 每次通信 syscall + 协议栈 | 无 syscall,硬件直通 |
@tbl-atlas950-memory 内存模型对比
这个架构的编程模型含义是激进的。 如果 UBMMU 真正做到了 load/store 语义的远端内存访问——包括缓存一致性(灵衢的 LQC 协议负责)——那么理论上 NCCL 风格的显式通信可以被编译器/运行时自动生成的远端访存替代。但这一编程模型的实际成熟度取决于 LQC 的缓存一致性粒度、UBMMU 的页表管理开销、以及上层框架(PyTorch / vLLM)的适配程度。
前置阅读:
- LQC 缓存一致性协议 → 1.15 灵衢总线 (UB) §LQC
- MemFabric 统一编址已验证案例(128 TB CPU + 48 TB NPU) → 1.15 灵衢总线 (UB) §MemFabric
与 NVIDIA NVL 系统对比
核心问题:Atlas 950 与 NVL72/NVL144 在架构和规模上的差异是数量级的还是范式的?
华为官方口径宣称 Atlas 950 在卡规模、算力、内存、互联带宽四个维度全面领先 NVL144,但对比的公平性取决于维度选择。
| 维度 | Atlas 950 SuperPoD | NVIDIA NVL144 (2026H2) | 华为宣称倍数 |
|---|---|---|---|
| NPU/GPU 数量 | 8,192 | 144 | 56.8× |
| FP8 总算力 | 8 EFLOPS | ~1.2 EFLOPS | 6.7× |
| 总 HBM 容量 | 1,152 TB | ~77 TB (144×192 GB) | 15× |
| 总互联带宽 | 16.3 PB/s | ~0.26 PB/s (144×1.8 TB/s) | 62× |
| 互联域大小 | 8,192(同一超节点内) | 72/144(NVSwitch 域) | 56.8× |
@tbl-atlas950-vs-nvl Atlas 950 与 NVL144 华为官方对比
这个对比有一个关键不对等:比较的是"单台逻辑机器"的物理上限,而非同等出货状态下的实际性能。 NVL72 已在 2025 年出货(GB200 NVL72),NVL144 在 2026 H2 有明确时间表。Atlas 950 的所有数字均为厂商规格,未出货。两者放在同一张表里对比卡规模/算力,本质上是 roadmap vs roadmap 而非 product vs product。
架构范式差异可能比数值差异更重要:
- NVL 的 Scale-Up 边界清晰:NVSwitch 域 = 72/144 GPU,再大走 InfiniBand/RoCE Scale-Out。边界内是超高带宽域,边界外带宽骤降。
- Atlas 950 声称消除这一边界:UB-Mesh 在 8,192 卡内无收敛,Scale-Up 域 = 整个超节点。如果能兑现,对并行策略选择有根本影响——TP 和 EP AllToAll 可以在更大域内执行,不需要因为带宽断崖而切换策略。
Atlas 960(2027 Q4)将进一步拉大算力差距:15,488 卡、FP8 算力翻倍,对标的是 NVIDIA NVL576(2027)。但 960 同样处于路线图早期。
产品路线图与落地状态
核心问题:Atlas 950 及其后续产品的时间线和可信度如何?
华为已公布至 2028 年的三代 NPU 路线图,每代 FP8 算力翻倍。 但截至 2026-06,950 系列无一出货。
| 产品 | 时间节点 | 规模 | FP8 算力 | 落地状态 |
|---|---|---|---|---|
| Atlas 900 A3 (910C) | 2025(已出货) | — | — | 300+ 套部署,UB 1.0 已验证 |
| Atlas 950 SuperPoD | Q4 2026(计划) | 8,192 卡 | 8 EFLOPS | 未出货 |
| Atlas 950 SuperCluster | Q4 2026(计划) | 64 SuperPoD = 524K 卡 | 524 EFLOPS | 未出货 |
| Atlas 960 SuperPoD | Q4 2027(计划) | ~15,488 卡 | ~16 EFLOPS | 未出货 |
| Atlas 960 SuperCluster | Q4 2027(计划) | 百万卡级 | 2 ZFLOPS FP8 | 未出货 |
| Atlas 970 | Q4 2028(计划) | — | 4 PFLOPS/卡 | 未出货 |
@tbl-atlas950-roadmap 昇腾超节点产品路线图
SuperCluster 是在 SuperPoD 之上通过 UBoE(UnifiedBus over Ethernet)+ RoCE 做 Scale-Out 组成的集群,与 AICS 灵衢智算集群(华为云侧产品)是不同层次的概念——SuperCluster 是硬件规格,AICS 是云服务封装,详见 1.4 华为云 INSPIRE 2026。
落地可信度分三层:
- 已验证:UB 1.0 + Atlas 900 A3,300+ 套部署,这是 950 的技术前身
- 厂商宣称、有规范:UB 2.0 协议规范 600+ 页已公开,950DT 芯片已流片并在 MWC 2026 海外展示
- 厂商宣称、无实物:8 EFLOPS / 95% 效率 / 16 PB/s 等系统级指标,SuperCluster 524 EFLOPS,均无出货或第三方实测
Takeaway
| 知识点 | 核心结论 |
|---|---|
| 芯片 | Ascend 950DT:1 PFLOPS FP8 / 144 GB HBM / 4 TB/s,双芯策略(DT + PR)降低集群成本 |
| 系统 | 8,192 卡 = 128 计算柜 + 32 通信柜,8 EFLOPS / 1,152 TB / 全液冷 |
| UB-Mesh 拓扑 | 三级递归直连,64 卡步长无收敛扩展,单跳 200 ns / 跨柜 3 μs |
| 统一内存 | UBMMU 硬件翻译 load/store → 远端访存,消除 serialize→send→recv→deserialize 路径 |
| 与 NVL 对比 | 华为宣称规模/算力/内存/带宽全面领先,但对比的是 roadmap vs roadmap,非出货产品 |
| 路线图 | 950 Q4 2026 → 960 Q4 2027 → 970 Q4 2028,每代算力翻倍 |
| 可信度 | 全参数为厂商宣称、未出货、无第三方实测;UB 1.0 + A3 已验证是唯一可确认的技术基础 |
参考资料
延伸阅读
- 1.15 灵衢总线 (UB) — 灵衢 UB 协议栈、MemFabric、LQC、UB Switch 深度调研
- 1.2 NVLink — NVLink 协议规格与代际演进(对照参考)
- 1.3 NVSwitch + NVLS — NVSwitch 交换架构与 NVLS 网内计算(对照参考)
- 2.16 NVL72 — NVL72 机柜级系统架构(对照参考)
- 1.4 华为云 INSPIRE 2026 — INSPIRE 2026 大会 AICS 云服务发布(Atlas 950 的上层云产品)