Atlas 950 超节点 (SuperPoD)

8,192 卡单台逻辑机器的芯片规格、系统架构与 UB-Mesh 无收敛全互联方案

核心要点：

Atlas 950 是华为基于昇腾 950DT + 灵衢 UB 2.0 构建的超节点系统，8,192 NPU 组成单台逻辑机器

单卡 1 PFLOPS FP8 / 144 GB HBM / 4 TB/s 带宽；系统总算力 8 EFLOPS / 总内存 1,152 TB

UB-Mesh 递归直连拓扑实现板内→板间→柜间三级无收敛全互联，总互联带宽 16 PB/s

UBMMU 统一内存编址让全部 1,152 TB HBM 呈现为单一地址空间，load/store 指令直达远端内存

截至 2026-06，所有参数均为厂商宣称、未出货、无第三方实测

名词定义

本文引入的新名词，章共享名词见 1.1 总览名词定义。

名词	定义
SuperPoD (超节点)	华为对单台逻辑机器的称呼：多柜通过 Scale-Up 互联组成的统一算力单元，对外呈现为一台计算机
UB-Mesh	灵衢 UB 2.0 的递归直连拓扑，板内/板间/柜间三级全互联，64 卡为步长扩展至 8,192 卡
UBMMU (Unified Bus Memory Management Unit)	NPU 内集成的内存管理单元，将 load/store 指令透明翻译为光互联操作，实现远端内存访问
HiZQ 2.0	昇腾 950DT 搭载的 HBM 规格，144 GB 容量 + 4 TB/s 带宽
950DT / 950PR	昇腾 950 的双芯变体：DT 面向训练+Decode（高带宽 HBM），PR 面向 Prefill+推荐（低成本 HBM）

@tbl-atlas950-glossary 本文专属名词

昇腾 950DT 芯片规格

核心问题：Ascend 950DT 单卡的算力、内存和互联带宽是多少？

Ascend 950DT 是华为 2025-09 发布的下一代 AI 训练/推理 NPU，单卡 FP8 算力 1 PFLOPS。 芯片分为两个变体：950DT 面向训练和 Decode 阶段，搭载高带宽 HiZQ 2.0 HBM；950PR 面向 Prefill 和推荐推理，使用成本更低的 HiBL 1.0 HBM。双芯策略的核心逻辑是 Prefill 节点对内存带宽要求低于 Decode 节点，分芯可降低集群总成本。

维度	Ascend 950DT	Ascend 950PR	Ascend 910C (上代)
FP8 算力	1 PFLOPS	—	基线
MXFP4 算力	2 PFLOPS	—	—
精度格式	FP8 / MXFP8 / MXFP4 / HiF8	—	—
HBM 容量	144 GB (HiZQ 2.0)	— (HiBL 1.0)	—
HBM 带宽	4 TB/s	—	—
芯片互联带宽	2 TB/s	—	800 GB/s

@tbl-atlas950-chip 昇腾 950 芯片规格

HiF8 是华为自研的 8-bit 浮点格式，宣称在 FP8 级效率下达到 FP16 级精度。互联带宽 2 TB/s 是上代 910C（800 GB/s）的 2.5×，这个数字决定了单卡在超节点内与其他 NPU 通信的物理上限。

前置阅读：

灵衢 UB 协议栈与 UB Switch 拓扑 → 1.15 灵衢总线 (UB)
NVLink 5.0 协议规格作为对照 → 1.2 NVLink

超节点系统架构

核心问题：8,192 卡如何从单柜组织成一台逻辑机器？

Atlas 950 超节点以"单柜 64 卡"为基本单元，128 个计算柜 + 32 个通信柜组成 8,192 卡系统。 物理部署约 160 个机柜、1,000 m² 占地面积，全液冷散热（PUE ≈ 1.1）。

维度	参数
基本单元	单柜 64 卡昇腾 950DT
最大规模	128 计算柜 = 8,192 卡
通信柜	32 柜（UB Switch 等交换设备）
FP8 总算力	8 EFLOPS
FP4 总算力	16 EFLOPS
总 HBM 容量	1,152 TB（64 GB × 8,192 卡，统一池化）
总互联带宽	16 PB/s
散热方案	全液冷，冷板直贴芯片，PUE ≈ 1.1
部署方式	正交架构、零线缆电互联、整机柜预制
占地面积	~160 机柜 / ~1,000 m²

@tbl-atlas950-system Atlas 950 SuperPoD 系统参数

64 卡为步长的模块化扩展是 Atlas 950 与 NVL72 的关键架构差异。 NVL72 的 NVSwitch 域固定在 72 GPU，超出需要 Scale-Out 网络；Atlas 950 声称可在 64→128→...→8,192 范围内按需扩展且带宽不收敛。这一特性如果成立，意味着超节点内任意两卡之间始终保持全带宽通信，不受传统胖树/Clos 网络的收敛比约束。

华为宣称的 95% 跨 8,192 卡计算效率基于 UB-Mesh 无收敛互联 + 统一内存编程模型，但无第三方验证。同等规模的传统 GPU 集群（InfiniBand/RoCE Scale-Out）在 AllReduce 等通信密集操作上通常只能维持 30-50% MFU。

UB-Mesh 互联拓扑

核心问题：UB-Mesh 如何实现 8,192 卡无收敛全互联？

UB-Mesh 是灵衢 UB 2.0 的拓扑方案，采用板内→板间→柜间三级递归直连，不经过交换机收敛。 这与 NVLink + NVSwitch 的交换架构有本质区别。

板内全互联 → 板间全互联 → 柜间全互联
    (PCB)       (背板)       (光互联)
       ↓           ↓            ↓
    64 卡步长按需扩展至 8,192 卡无收敛

拓扑的关键性能指标：

指标	数值	对比参考
单跳延迟	200 ns	NVLink 5.0 单跳 ~200-300 ns
跨柜往返延迟	3 μs	上代 7 μs
全系统 NPU-to-NPU	~2.1 μs	—
光互联覆盖半径	200 m	NVLink 铜缆 ≤2 m
故障检测+切换	100 ns 级	—

@tbl-atlas950-ubmesh UB-Mesh 拓扑性能指标

UB-Mesh 与 NVSwitch 的架构差异不在带宽数值，而在拓扑范式。 NVSwitch 是交换机架构：GPU 不直连，全部流量经交换机中转，NVSwitch 域大小受交换机 radix 限制（当前 NVLink 5.0 域 = 72 GPU）。UB-Mesh 是直连拓扑：每张卡直接参与互联网络（类似 2D/3D Torus 的思路，但维度数不同），没有集中式交换瓶颈。代价是每张 NPU 必须消耗 2 TB/s 芯片互联带宽用于构造 Mesh，这部分带宽不能全部用于应用通信。

UB-Mesh 的具体拓扑维度（每卡连几个邻居、Mesh 是几维、路由算法）华为未完整公开。 从公开资料推断：

板内：64 卡以内，维度未知（推测 ≥3D 直连或全连接）
板间：通过背板扩展，维度可能增加
柜间：全光互联，利用 200 m 覆盖半径实现跨柜直连

灵衢 UB 2.0 规范 600+ 页已公开，但拓扑定义章节的详细程度未经验证。

统一内存架构

核心问题：UBMMU 统一编址与传统集群内存模型有何本质区别？

UBMMU 让全部 1,152 TB HBM 对软件呈现为单一地址空间，远端内存访问只需一条 load/store 指令。 传统 GPU 集群的跨节点数据搬运路径是 serialize→send→receive→deserialize，每一步都有软件开销；UBMMU 将这个过程压缩为硬件自动完成的地址翻译+光互联传输。

维度	传统 GPU 集群	Atlas 950 + UBMMU
跨节点数据搬运	serialize→RDMA send→RDMA recv→deserialize	load/store 指令，UBMMU 硬件翻译
内存模型	分布式内存（各 GPU 私有地址空间）	统一内存（全局地址空间）
编程模型	显式通信（NCCL / MPI）	隐式通信（load/store 触发硬件搬运）
软件开销	每次通信 syscall + 协议栈	无 syscall，硬件直通

@tbl-atlas950-memory 内存模型对比

这个架构的编程模型含义是激进的。 如果 UBMMU 真正做到了 load/store 语义的远端内存访问——包括缓存一致性（灵衢的 LQC 协议负责）——那么理论上 NCCL 风格的显式通信可以被编译器/运行时自动生成的远端访存替代。但这一编程模型的实际成熟度取决于 LQC 的缓存一致性粒度、UBMMU 的页表管理开销、以及上层框架（PyTorch / vLLM）的适配程度。

前置阅读：

LQC 缓存一致性协议 → 1.15 灵衢总线 (UB) §LQC
MemFabric 统一编址已验证案例（128 TB CPU + 48 TB NPU） → 1.15 灵衢总线 (UB) §MemFabric

与 NVIDIA NVL 系统对比

核心问题：Atlas 950 与 NVL72/NVL144 在架构和规模上的差异是数量级的还是范式的？

华为官方口径宣称 Atlas 950 在卡规模、算力、内存、互联带宽四个维度全面领先 NVL144，但对比的公平性取决于维度选择。

维度	Atlas 950 SuperPoD	NVIDIA NVL144 (2026H2)	华为宣称倍数
NPU/GPU 数量	8,192	144	56.8×
FP8 总算力	8 EFLOPS	~1.2 EFLOPS	6.7×
总 HBM 容量	1,152 TB	~77 TB (144×192 GB)	15×
总互联带宽	16.3 PB/s	~0.26 PB/s (144×1.8 TB/s)	62×
互联域大小	8,192（同一超节点内）	72/144（NVSwitch 域）	56.8×

@tbl-atlas950-vs-nvl Atlas 950 与 NVL144 华为官方对比

这个对比有一个关键不对等：比较的是"单台逻辑机器"的物理上限，而非同等出货状态下的实际性能。 NVL72 已在 2025 年出货（GB200 NVL72），NVL144 在 2026 H2 有明确时间表。Atlas 950 的所有数字均为厂商规格，未出货。两者放在同一张表里对比卡规模/算力，本质上是 roadmap vs roadmap 而非 product vs product。

架构范式差异可能比数值差异更重要：

NVL 的 Scale-Up 边界清晰：NVSwitch 域 = 72/144 GPU，再大走 InfiniBand/RoCE Scale-Out。边界内是超高带宽域，边界外带宽骤降。
Atlas 950 声称消除这一边界：UB-Mesh 在 8,192 卡内无收敛，Scale-Up 域 = 整个超节点。如果能兑现，对并行策略选择有根本影响——TP 和 EP AllToAll 可以在更大域内执行，不需要因为带宽断崖而切换策略。

Atlas 960（2027 Q4）将进一步拉大算力差距：15,488 卡、FP8 算力翻倍，对标的是 NVIDIA NVL576（2027）。但 960 同样处于路线图早期。

产品路线图与落地状态

核心问题：Atlas 950 及其后续产品的时间线和可信度如何？

华为已公布至 2028 年的三代 NPU 路线图，每代 FP8 算力翻倍。 但截至 2026-06，950 系列无一出货。

产品	时间节点	规模	FP8 算力	落地状态
Atlas 900 A3 (910C)	2025（已出货）	—	—	300+ 套部署，UB 1.0 已验证
Atlas 950 SuperPoD	Q4 2026（计划）	8,192 卡	8 EFLOPS	未出货
Atlas 950 SuperCluster	Q4 2026（计划）	64 SuperPoD = 524K 卡	524 EFLOPS	未出货
Atlas 960 SuperPoD	Q4 2027（计划）	~15,488 卡	~16 EFLOPS	未出货
Atlas 960 SuperCluster	Q4 2027（计划）	百万卡级	2 ZFLOPS FP8	未出货
Atlas 970	Q4 2028（计划）	—	4 PFLOPS/卡	未出货

@tbl-atlas950-roadmap 昇腾超节点产品路线图

SuperCluster 是在 SuperPoD 之上通过 UBoE（UnifiedBus over Ethernet）+ RoCE 做 Scale-Out 组成的集群，与 AICS 灵衢智算集群（华为云侧产品）是不同层次的概念——SuperCluster 是硬件规格，AICS 是云服务封装，详见 1.4 华为云 INSPIRE 2026。

落地可信度分三层：

已验证：UB 1.0 + Atlas 900 A3，300+ 套部署，这是 950 的技术前身
厂商宣称、有规范：UB 2.0 协议规范 600+ 页已公开，950DT 芯片已流片并在 MWC 2026 海外展示
厂商宣称、无实物：8 EFLOPS / 95% 效率 / 16 PB/s 等系统级指标，SuperCluster 524 EFLOPS，均无出货或第三方实测

Takeaway

知识点	核心结论
芯片	Ascend 950DT：1 PFLOPS FP8 / 144 GB HBM / 4 TB/s，双芯策略（DT + PR）降低集群成本
系统	8,192 卡 = 128 计算柜 + 32 通信柜，8 EFLOPS / 1,152 TB / 全液冷
UB-Mesh 拓扑	三级递归直连，64 卡步长无收敛扩展，单跳 200 ns / 跨柜 3 μs
统一内存	UBMMU 硬件翻译 load/store → 远端访存，消除 serialize→send→recv→deserialize 路径
与 NVL 对比	华为宣称规模/算力/内存/带宽全面领先，但对比的是 roadmap vs roadmap，非出货产品
路线图	950 Q4 2026 → 960 Q4 2027 → 970 Q4 2028，每代算力翻倍
可信度	全参数为厂商宣称、未出货、无第三方实测；UB 1.0 + A3 已验证是唯一可确认的技术基础

Atlas 950 超节点 (SuperPoD)

名词定义

昇腾 950DT 芯片规格

超节点系统架构

UB-Mesh 互联拓扑

统一内存架构

与 NVIDIA NVL 系统对比

产品路线图与落地状态

Takeaway

参考资料

延伸阅读

名词定义​

昇腾 950DT 芯片规格​

超节点系统架构​

UB-Mesh 互联拓扑​

统一内存架构​

与 NVIDIA NVL 系统对比​

产品路线图与落地状态​

Takeaway​

参考资料​

延伸阅读​

名词定义

昇腾 950DT 芯片规格

超节点系统架构

UB-Mesh 互联拓扑

统一内存架构

与 NVIDIA NVL 系统对比

产品路线图与落地状态

Takeaway

参考资料

延伸阅读