跳到主要内容

国产互联方案

华为 HCCS、算能 PAXI 等国产 GPU 互联方案的规格与与 NVLink 的差距

核心要点

  • 华为 HCCS:类 NVLink 私有协议,8 卡全连接,CANN/HCCL 软件栈
  • 算能 SG2262 PAXI: AXI over Ethernet,复用标准以太网交换机
  • 燧原 / 壁仞 / 海光:节点内多走 PCIe 或类 xGMI,节点间走 IB/RoCE
  • 与 NVLink 5.0 (B200) 差距仍较大;SG2262 224G 档接近 H100
  • 主要短板:软件生态分散,缺乏统一集合通信库标准

受限于公开信息,非本项目芯片 (华为/燧原/壁仞/海光) 的部分参数为公开资料估算值,标注"(公开资料)"。SG2262 参数来自内部设计文档,标注"[DOC]"。

主要技术路线长什么样?

五类方案,节点内带宽差异巨大 (63 GB/s 到 896 GB/s),见 @tbl-hw-cn-overview

技术厂商/芯片单芯片节点内带宽 (双向)协议基础最大互联规模主要特点
HCCS华为 / Ascend 910B~400 GB/s (估,公开资料)自研私有8 卡全连接类 NVLink,CANN 软件栈
C2C (PAXI)算能 / SG2262448 GB/s @ 112G [DOC]PAXI (AXI over Ethernet)1024 芯片 (含交换机)复用标准以太网交换机
RoCE + PCIe燧原 / T20受限于 PCIe Gen4 (~63 GB/s)标准 RoCEv2取决于网络规模节点内带宽低,依赖节点间 RDMA
xGMI (ROCm)海光 / DCU Z100L~128-400 GB/s (公开资料)兼容 AMD xGMI公开资料不足对标 AMD MI250,ROCm 生态
PCIe Gen4壁仞 / BR100~63-100 GB/s (公开资料)PCIe + 私有公开信息有限算力标称极高,互联细节未公开

@tbl-hw-cn-overview 国产互联主要技术路线

华为 HCCS 长什么样?

对标 NVLink 的私有协议,8 卡全连接 Mesh,配套 CANN/HCCL 软件栈

搭载芯片:昇腾系列,定位对标 NVIDIA NVLink,用于单节点内多卡全连接 (公开资料)。

规格 (@tbl-hw-cn-hccs):

参数Ascend 910Ascend 910B来源
节点内 HCCS 总带宽~400 GB/s~400-560 GB/s (估)公开资料
单节点芯片数88公开资料
互联拓扑全连接 Mesh (8 卡)全连接 Mesh (8 卡)公开资料
节点间互联100 GbE RoCE100 GbE RoCE公开资料

@tbl-hw-cn-hccs HCCS 规格

Atlas 900 集群:每节点 8 张 Ascend 910B,节点内 HCCS 全连接;节点间 100 GbE RoCE (华为 MindX 网络)。典型 1024 卡规模下 128 节点通过 RoCE Spine-Leaf 组网 (公开资料)。

软件栈:华为 CANN (Compute Architecture for Neural Networks) 提供与 NCCL 对标的集合通信库 HCCL。两者 API 语义兼容,但底层实现和调优不互通 (公开资料)。

算能 PAXI / SG2262 的设计思路是什么?

把片上 AXI4 总线事务透明映射到以太网物理链路,复用标准以太网交换机

PAXI (Protocol of Accelerated eXchange Interconnect) 由合见工业软件 (UniVista) 提供 IP 核。软件视角下远端芯片内存与本地地址空间无差异。

完整协议建模细节见 docs/specs/G5仿真建模/ (G5-CDMA / G5-PAXICore / G5-RC-Link 设计规格)。

关键规格 (@tbl-hw-cn-paxi):

参数来源
SerDes 速率档位56 / 112 / 224 Gbps per lane[DOC]
每芯片 C2C 端口8 组 ×4 Link[DOC]
单芯片 C2C 总带宽 (单向)224 GB/s @ 56G / 448 GB/s @ 112G / 896 GB/s @ 224G[DOC] (8 × 4 × 速率 / 8)
PAXI 有效带宽 @ 112G (含协议头)~432 GB/s (封装效率 96.4%)[DOC] (448 × 1344 / (1344+50))
最大互联规模1024 芯片 (经交换机) / 8 芯片 (直连 cube)[DOC]
L1 cluster 最大规模32 芯片[DOC]
AXI-to-AXI 端到端延迟低至 150 ns @ 400G (P2P 直连,无 NoC)[DOC]
虚拟通道数 (VC)8 (CBFC/PFC)[DOC]
OST 上限 (TYPE1)512 outstanding 请求[DOC]
多播支持最多 8 组 × 16 设备/组[DOC]

@tbl-hw-cn-paxi SG2262 C2C / PAXI 规格

支持的拓扑 (@tbl-hw-cn-paxi-topo):

拓扑层级最大规模交换机需求
clos单层1024 芯片需要 (可多层 Clos)
cube单层8 芯片无 (直连)
all2all + clos两层 (L1 + L2)1024 芯片L2 需交换机
clos + clos两层1024 芯片L1、L2 均需
低成本 all2all + clos两层1024 芯片 (L2 带宽受限)L2 单轨交换机

@tbl-hw-cn-paxi-topo PAXI 支持的拓扑

协议栈 (SUE2.0 五层):SerDes (112G PAM4) → CESOC (MAC/PCS/FEC) → RC Link (传输层,Go-Back-N 重传,CBFC 流控) → PAXI Core (事务层,AXI ↔ Flit) → 应用层 (AXI4/APB3)。

与旧版相比,SUE2.0 关键变化:

  • RC Link 传输层 (必选) 替代旧版 RDMA Engine,提供端到端可靠重传
  • 虚拟通道从 3 扩展为 8 (CBFC/PFC 均支持),支持 REQ/RSP 隔离防死锁
  • 流控职责下放:PAXI Core 专注协议转换,CBFC 由 RC Link 管理
  • 新增多播支持

流控两模式互斥

  • CBFC (Credit-Based Flow Control): per-VC credit 追踪,适配支持 CBFC 的交换机
  • PFC (Priority Flow Control):基于 RX buffer 水位线,适配标准以太网交换机

限制

  • 路径唯一,不支持 ECMP 多路径
  • Read 操作性能代价大,软件应尽量用 Write 替代 [DOC]
  • Send/Receive 为严格 thread 级一对一配对

其他厂商方案有什么特点?

燧原 T20

节点内 PCIe Gen4 连接,节点间 InfiniBand (EDR/HDR 等级),依赖节点间网络承载 AllReduce。节点内带宽约 63 GB/s 双向,远低于 NVLink 或 HCCS (公开资料)。

壁仞 BR100

对外宣称超高单精度和混合精度算力,但互联架构公开信息极少。已知通过 PCIe 与主机连接,卡间直连互联规格未明确披露 (公开资料)。

海光 DCU

走 AMD MI 架构兼容路线,节点内类 xGMI/Infinity Fabric,软件栈兼容 ROCm。节点间配 IB 或 RoCE。公开规格显示节点内带宽低于 AMD MI 同代产品 (公开资料)。

与国际方案差距有多大?

带宽上 SG2262 @224G 接近 H100,HCCS 落后 NVLink 4.0 一档,软件生态分散是更大短板,见 @tbl-hw-cn-gap

维度国产主流方案NVIDIA (参考)差距
节点内单芯片带宽SG2262 @112G 448 / @224G 896 GB/s / HCCS ~400-560 GB/sNVLink 4.0 900 / NVLink 5.0 1800 GB/sSG2262 @112G 约 H100 一半,@224G 接近;HCCS 仍有差距;vs B200 均大幅落后
节点间网络100 GbE RoCE (华为) / IB (部分)IB NDR 400 / XDR 800 Gbps华为 RoCE 线速较低;燧原等用 IB 但生态成熟度弱
拓扑灵活性固定 Mesh (HCCS 8 卡) / 多拓扑 (SG2262 含 Clos)NVSwitch 全连接,任意 GPU 等带宽HCCS 固定 8 卡;SG2262 多拓扑相对灵活
软件生态HCCL (华为) / 各自私有NCCL 主导 + Megatron-LM 深度集成互操作弱,缺统一集合通信库标准
交换机兼容性SG2262 基于以太网二层,兼容标准交换机NVSwitch 专有,生态封闭SG2262 开放度更高,可复用商用以太网
可靠性机制LLR + E2E Retry + CBFC (SG2262)硬件保障,成熟度高国产机制完备,但大规模工程验证经验仍在积累

@tbl-hw-cn-gap 国产 vs 国际方案差距

Takeaway

知识点核心结论
五类技术路线HCCS 私有协议 / SG2262 AXI-over-Eth / 燧原 PCIe+IB / 壁仞 PCIe / 海光 类 xGMI
HCCS 定位类 NVLink,8 卡全连接 Mesh,CANN/HCCL 软件栈
SG2262 PAXI复用标准以太网,1024 芯片规模,112G 档 448 GB/s
软件生态短板各家私有集合通信库,无统一标准
带宽差距SG2262 @224G 接近 H100,HCCS vs NVLink 4.0 仍有差距
SG2262 开放优势可复用商用以太网交换机,部署成本低于 NVSwitch 专有方案