跳到主要内容

Atlas 950 超节点 (SuperPoD)

8,192 卡单台逻辑机器的芯片规格、系统架构与 UB-Mesh 无收敛全互联方案

核心要点

  • Atlas 950 是华为基于昇腾 950DT + 灵衢 UB 2.0 构建的超节点系统,8,192 NPU 组成单台逻辑机器
  • 单卡 1 PFLOPS FP8 / 144 GB HBM / 4 TB/s 带宽;系统总算力 8 EFLOPS / 总内存 1,152 TB
  • UB-Mesh 递归直连拓扑实现板内→板间→柜间三级无收敛全互联,总互联带宽 16 PB/s
  • UBMMU 统一内存编址让全部 1,152 TB HBM 呈现为单一地址空间,load/store 指令直达远端内存
  • 截至 2026-06,所有参数均为厂商宣称、未出货、无第三方实测

名词定义

本文引入的新名词,章共享名词见 1.1 总览 名词定义。

名词定义
SuperPoD (超节点)华为对单台逻辑机器的称呼:多柜通过 Scale-Up 互联组成的统一算力单元,对外呈现为一台计算机
UB-Mesh灵衢 UB 2.0 的递归直连拓扑,板内/板间/柜间三级全互联,64 卡为步长扩展至 8,192 卡
UBMMU (Unified Bus Memory Management Unit)NPU 内集成的内存管理单元,将 load/store 指令透明翻译为光互联操作,实现远端内存访问
HiZQ 2.0昇腾 950DT 搭载的 HBM 规格,144 GB 容量 + 4 TB/s 带宽
950DT / 950PR昇腾 950 的双芯变体:DT 面向训练+Decode(高带宽 HBM),PR 面向 Prefill+推荐(低成本 HBM)

@tbl-atlas950-glossary 本文专属名词

昇腾 950DT 芯片规格

核心问题:Ascend 950DT 单卡的算力、内存和互联带宽是多少?

Ascend 950DT 是华为 2025-09 发布的下一代 AI 训练/推理 NPU,单卡 FP8 算力 1 PFLOPS。 芯片分为两个变体:950DT 面向训练和 Decode 阶段,搭载高带宽 HiZQ 2.0 HBM;950PR 面向 Prefill 和推荐推理,使用成本更低的 HiBL 1.0 HBM。双芯策略的核心逻辑是 Prefill 节点对内存带宽要求低于 Decode 节点,分芯可降低集群总成本。

维度Ascend 950DTAscend 950PRAscend 910C (上代)
FP8 算力1 PFLOPS基线
MXFP4 算力2 PFLOPS
精度格式FP8 / MXFP8 / MXFP4 / HiF8
HBM 容量144 GB (HiZQ 2.0)— (HiBL 1.0)
HBM 带宽4 TB/s
芯片互联带宽2 TB/s800 GB/s

@tbl-atlas950-chip 昇腾 950 芯片规格

HiF8 是华为自研的 8-bit 浮点格式,宣称在 FP8 级效率下达到 FP16 级精度。互联带宽 2 TB/s 是上代 910C(800 GB/s)的 2.5×,这个数字决定了单卡在超节点内与其他 NPU 通信的物理上限。

前置阅读

超节点系统架构

核心问题:8,192 卡如何从单柜组织成一台逻辑机器?

Atlas 950 超节点以"单柜 64 卡"为基本单元,128 个计算柜 + 32 个通信柜组成 8,192 卡系统。 物理部署约 160 个机柜、1,000 m² 占地面积,全液冷散热(PUE ≈ 1.1)。

维度参数
基本单元单柜 64 卡昇腾 950DT
最大规模128 计算柜 = 8,192 卡
通信柜32 柜(UB Switch 等交换设备)
FP8 总算力8 EFLOPS
FP4 总算力16 EFLOPS
总 HBM 容量1,152 TB(64 GB × 8,192 卡,统一池化)
总互联带宽16 PB/s
散热方案全液冷,冷板直贴芯片,PUE ≈ 1.1
部署方式正交架构、零线缆电互联、整机柜预制
占地面积~160 机柜 / ~1,000 m²

@tbl-atlas950-system Atlas 950 SuperPoD 系统参数

64 卡为步长的模块化扩展是 Atlas 950 与 NVL72 的关键架构差异。 NVL72 的 NVSwitch 域固定在 72 GPU,超出需要 Scale-Out 网络;Atlas 950 声称可在 64→128→...→8,192 范围内按需扩展且带宽不收敛。这一特性如果成立,意味着超节点内任意两卡之间始终保持全带宽通信,不受传统胖树/Clos 网络的收敛比约束。

华为宣称的 95% 跨 8,192 卡计算效率基于 UB-Mesh 无收敛互联 + 统一内存编程模型,但无第三方验证。同等规模的传统 GPU 集群(InfiniBand/RoCE Scale-Out)在 AllReduce 等通信密集操作上通常只能维持 30-50% MFU。

UB-Mesh 互联拓扑

核心问题:UB-Mesh 如何实现 8,192 卡无收敛全互联?

UB-Mesh 是灵衢 UB 2.0 的拓扑方案,采用板内→板间→柜间三级递归直连,不经过交换机收敛。 这与 NVLink + NVSwitch 的交换架构有本质区别。

板内全互联 → 板间全互联 → 柜间全互联
(PCB) (背板) (光互联)
↓ ↓ ↓
64 卡步长按需扩展至 8,192 卡无收敛

拓扑的关键性能指标

指标数值对比参考
单跳延迟200 nsNVLink 5.0 单跳 ~200-300 ns
跨柜往返延迟3 μs上代 7 μs
全系统 NPU-to-NPU~2.1 μs
光互联覆盖半径200 mNVLink 铜缆 ≤2 m
故障检测+切换100 ns 级

@tbl-atlas950-ubmesh UB-Mesh 拓扑性能指标

UB-Mesh 与 NVSwitch 的架构差异不在带宽数值,而在拓扑范式。 NVSwitch 是交换机架构:GPU 不直连,全部流量经交换机中转,NVSwitch 域大小受交换机 radix 限制(当前 NVLink 5.0 域 = 72 GPU)。UB-Mesh 是直连拓扑:每张卡直接参与互联网络(类似 2D/3D Torus 的思路,但维度数不同),没有集中式交换瓶颈。代价是每张 NPU 必须消耗 2 TB/s 芯片互联带宽用于构造 Mesh,这部分带宽不能全部用于应用通信。

UB-Mesh 的具体拓扑维度(每卡连几个邻居、Mesh 是几维、路由算法)华为未完整公开。 从公开资料推断:

  • 板内:64 卡以内,维度未知(推测 ≥3D 直连或全连接)
  • 板间:通过背板扩展,维度可能增加
  • 柜间:全光互联,利用 200 m 覆盖半径实现跨柜直连

灵衢 UB 2.0 规范 600+ 页已公开,但拓扑定义章节的详细程度未经验证。

统一内存架构

核心问题:UBMMU 统一编址与传统集群内存模型有何本质区别?

UBMMU 让全部 1,152 TB HBM 对软件呈现为单一地址空间,远端内存访问只需一条 load/store 指令。 传统 GPU 集群的跨节点数据搬运路径是 serialize→send→receive→deserialize,每一步都有软件开销;UBMMU 将这个过程压缩为硬件自动完成的地址翻译+光互联传输。

维度传统 GPU 集群Atlas 950 + UBMMU
跨节点数据搬运serialize→RDMA send→RDMA recv→deserializeload/store 指令,UBMMU 硬件翻译
内存模型分布式内存(各 GPU 私有地址空间)统一内存(全局地址空间)
编程模型显式通信(NCCL / MPI)隐式通信(load/store 触发硬件搬运)
软件开销每次通信 syscall + 协议栈无 syscall,硬件直通

@tbl-atlas950-memory 内存模型对比

这个架构的编程模型含义是激进的。 如果 UBMMU 真正做到了 load/store 语义的远端内存访问——包括缓存一致性(灵衢的 LQC 协议负责)——那么理论上 NCCL 风格的显式通信可以被编译器/运行时自动生成的远端访存替代。但这一编程模型的实际成熟度取决于 LQC 的缓存一致性粒度、UBMMU 的页表管理开销、以及上层框架(PyTorch / vLLM)的适配程度。

前置阅读

与 NVIDIA NVL 系统对比

核心问题:Atlas 950 与 NVL72/NVL144 在架构和规模上的差异是数量级的还是范式的?

华为官方口径宣称 Atlas 950 在卡规模、算力、内存、互联带宽四个维度全面领先 NVL144,但对比的公平性取决于维度选择。

维度Atlas 950 SuperPoDNVIDIA NVL144 (2026H2)华为宣称倍数
NPU/GPU 数量8,19214456.8×
FP8 总算力8 EFLOPS~1.2 EFLOPS6.7×
总 HBM 容量1,152 TB~77 TB (144×192 GB)15×
总互联带宽16.3 PB/s~0.26 PB/s (144×1.8 TB/s)62×
互联域大小8,192(同一超节点内)72/144(NVSwitch 域)56.8×

@tbl-atlas950-vs-nvl Atlas 950 与 NVL144 华为官方对比

这个对比有一个关键不对等:比较的是"单台逻辑机器"的物理上限,而非同等出货状态下的实际性能。 NVL72 已在 2025 年出货(GB200 NVL72),NVL144 在 2026 H2 有明确时间表。Atlas 950 的所有数字均为厂商规格,未出货。两者放在同一张表里对比卡规模/算力,本质上是 roadmap vs roadmap 而非 product vs product。

架构范式差异可能比数值差异更重要

  • NVL 的 Scale-Up 边界清晰:NVSwitch 域 = 72/144 GPU,再大走 InfiniBand/RoCE Scale-Out。边界内是超高带宽域,边界外带宽骤降。
  • Atlas 950 声称消除这一边界:UB-Mesh 在 8,192 卡内无收敛,Scale-Up 域 = 整个超节点。如果能兑现,对并行策略选择有根本影响——TP 和 EP AllToAll 可以在更大域内执行,不需要因为带宽断崖而切换策略。

Atlas 960(2027 Q4)将进一步拉大算力差距:15,488 卡、FP8 算力翻倍,对标的是 NVIDIA NVL576(2027)。但 960 同样处于路线图早期。

产品路线图与落地状态

核心问题:Atlas 950 及其后续产品的时间线和可信度如何?

华为已公布至 2028 年的三代 NPU 路线图,每代 FP8 算力翻倍。 但截至 2026-06,950 系列无一出货。

产品时间节点规模FP8 算力落地状态
Atlas 900 A3 (910C)2025(已出货)300+ 套部署,UB 1.0 已验证
Atlas 950 SuperPoDQ4 2026(计划)8,192 卡8 EFLOPS未出货
Atlas 950 SuperClusterQ4 2026(计划)64 SuperPoD = 524K 卡524 EFLOPS未出货
Atlas 960 SuperPoDQ4 2027(计划)~15,488 卡~16 EFLOPS未出货
Atlas 960 SuperClusterQ4 2027(计划)百万卡级2 ZFLOPS FP8未出货
Atlas 970Q4 2028(计划)4 PFLOPS/卡未出货

@tbl-atlas950-roadmap 昇腾超节点产品路线图

SuperCluster 是在 SuperPoD 之上通过 UBoE(UnifiedBus over Ethernet)+ RoCE 做 Scale-Out 组成的集群,与 AICS 灵衢智算集群(华为云侧产品)是不同层次的概念——SuperCluster 是硬件规格,AICS 是云服务封装,详见 1.4 华为云 INSPIRE 2026

落地可信度分三层

  • 已验证:UB 1.0 + Atlas 900 A3,300+ 套部署,这是 950 的技术前身
  • 厂商宣称、有规范:UB 2.0 协议规范 600+ 页已公开,950DT 芯片已流片并在 MWC 2026 海外展示
  • 厂商宣称、无实物:8 EFLOPS / 95% 效率 / 16 PB/s 等系统级指标,SuperCluster 524 EFLOPS,均无出货或第三方实测

Takeaway

知识点核心结论
芯片Ascend 950DT:1 PFLOPS FP8 / 144 GB HBM / 4 TB/s,双芯策略(DT + PR)降低集群成本
系统8,192 卡 = 128 计算柜 + 32 通信柜,8 EFLOPS / 1,152 TB / 全液冷
UB-Mesh 拓扑三级递归直连,64 卡步长无收敛扩展,单跳 200 ns / 跨柜 3 μs
统一内存UBMMU 硬件翻译 load/store → 远端访存,消除 serialize→send→recv→deserialize 路径
与 NVL 对比华为宣称规模/算力/内存/带宽全面领先,但对比的是 roadmap vs roadmap,非出货产品
路线图950 Q4 2026 → 960 Q4 2027 → 970 Q4 2028,每代算力翻倍
可信度全参数为厂商宣称、未出货、无第三方实测;UB 1.0 + A3 已验证是唯一可确认的技术基础

参考资料

延伸阅读