国产互联方案
华为 HCCS、算能 PAXI 等国产 GPU 互联方案的规格与与 NVLink 的差距
核心要点:
- 华为 HCCS:类 NVLink 私有协议,8 卡全连接,CANN/HCCL 软件栈
- 算能 SG2262 PAXI: AXI over Ethernet,复用标准以太网交换机
- 燧原 / 壁仞 / 海光:节点内多走 PCIe 或类 xGMI,节点间走 IB/RoCE
- 与 NVLink 5.0 (B200) 差距仍较大;SG2262 224G 档接近 H100
- 主要短板:软件生态分散,缺乏统一集合通信库标准
受限于公开信息,非本项目芯片 (华为/燧原/壁仞/海光) 的部分参数为公开资料估算值,标注"(公开资料)"。SG2262 参数来自内部设计文档,标注"[DOC]"。
主要技术路线长什么样?
五类方案,节点内带宽差异巨大 (63 GB/s 到 896 GB/s),见 @tbl-hw-cn-overview。
| 技术 | 厂商/芯片 | 单芯片节点内带宽 (双向) | 协议基础 | 最大互联规模 | 主要特点 |
|---|---|---|---|---|---|
| HCCS | 华为 / Ascend 910B | ~400 GB/s (估,公开资料) | 自研私有 | 8 卡全连接 | 类 NVLink,CANN 软件栈 |
| C2C (PAXI) | 算能 / SG2262 | 448 GB/s @ 112G [DOC] | PAXI (AXI over Ethernet) | 1024 芯片 (含交换机) | 复用标准以太网交换机 |
| RoCE + PCIe | 燧原 / T20 | 受限于 PCIe Gen4 (~63 GB/s) | 标准 RoCEv2 | 取决于网络规模 | 节点内带宽低,依赖节点间 RDMA |
| xGMI (ROCm) | 海光 / DCU Z100L | ~128-400 GB/s (公开资料) | 兼容 AMD xGMI | 公开资料不足 | 对标 AMD MI250,ROCm 生态 |
| PCIe Gen4 | 壁仞 / BR100 | ~63-100 GB/s (公开资料) | PCIe + 私有 | 公开信息有限 | 算力标称极高,互联细节未公开 |
@tbl-hw-cn-overview 国产互联主要技术路线
华为 HCCS 长什么样?
对标 NVLink 的私有协议,8 卡全连接 Mesh,配套 CANN/HCCL 软件栈。
搭载芯片:昇腾系列,定位对标 NVIDIA NVLink,用于单节点内多卡全连接 (公开资料)。
规格 (@tbl-hw-cn-hccs):
| 参数 | Ascend 910 | Ascend 910B | 来源 |
|---|---|---|---|
| 节点内 HCCS 总带宽 | ~400 GB/s | ~400-560 GB/s (估) | 公开资料 |
| 单节点芯片数 | 8 | 8 | 公开资料 |
| 互联拓扑 | 全连接 Mesh (8 卡) | 全连接 Mesh (8 卡) | 公开资料 |
| 节点间互联 | 100 GbE RoCE | 100 GbE RoCE | 公开资料 |
@tbl-hw-cn-hccs HCCS 规格
Atlas 900 集群:每节点 8 张 Ascend 910B,节点内 HCCS 全连接;节点间 100 GbE RoCE (华为 MindX 网络)。典型 1024 卡规模下 128 节点通过 RoCE Spine-Leaf 组网 (公开资料)。
软件栈:华为 CANN (Compute Architecture for Neural Networks) 提供与 NCCL 对标的集合通信库 HCCL。两者 API 语义兼容,但底层实现和调优不互通 (公开资料)。
算能 PAXI / SG2262 的设计思路是什么?
把片上 AXI4 总线事务透明映射到以太网物理链路,复用标准以太网交换机。
PAXI (Protocol of Accelerated eXchange Interconnect) 由合见工业软件 (UniVista) 提供 IP 核。软件视角下远端芯片内存与本地地址空间无差异。
完整协议建模细节见
docs/specs/G5仿真建模/(G5-CDMA / G5-PAXICore / G5-RC-Link 设计规格)。
关键规格 (@tbl-hw-cn-paxi):
| 参数 | 值 | 来源 |
|---|---|---|
| SerDes 速率档位 | 56 / 112 / 224 Gbps per lane | [DOC] |
| 每芯片 C2C 端口 | 8 组 ×4 Link | [DOC] |
| 单芯片 C2C 总带宽 (单向) | 224 GB/s @ 56G / 448 GB/s @ 112G / 896 GB/s @ 224G | [DOC] (8 × 4 × 速率 / 8) |
| PAXI 有效带宽 @ 112G (含协议头) | ~432 GB/s (封装效率 96.4%) | [DOC] (448 × 1344 / (1344+50)) |
| 最大互联规模 | 1024 芯片 (经交换机) / 8 芯片 (直连 cube) | [DOC] |
| L1 cluster 最大规模 | 32 芯片 | [DOC] |
| AXI-to-AXI 端到端延迟 | 低至 150 ns @ 400G (P2P 直连,无 NoC) | [DOC] |
| 虚拟通道数 (VC) | 8 (CBFC/PFC) | [DOC] |
| OST 上限 (TYPE1) | 512 outstanding 请求 | [DOC] |
| 多播支持 | 最多 8 组 × 16 设备/组 | [DOC] |
@tbl-hw-cn-paxi SG2262 C2C / PAXI 规格
支持的拓扑 (@tbl-hw-cn-paxi-topo):
| 拓扑 | 层级 | 最大规模 | 交换机需求 |
|---|---|---|---|
| clos | 单层 | 1024 芯片 | 需要 (可多层 Clos) |
| cube | 单层 | 8 芯片 | 无 (直连) |
| all2all + clos | 两层 (L1 + L2) | 1024 芯片 | L2 需交换机 |
| clos + clos | 两层 | 1024 芯片 | L1、L2 均需 |
| 低成本 all2all + clos | 两层 | 1024 芯片 (L2 带宽受限) | L2 单轨交换机 |
@tbl-hw-cn-paxi-topo PAXI 支持的拓扑
协议栈 (SUE2.0 五层):SerDes (112G PAM4) → CESOC (MAC/PCS/FEC) → RC Link (传输层,Go-Back-N 重传,CBFC 流控) → PAXI Core (事务层,AXI ↔ Flit) → 应用层 (AXI4/APB3)。
与旧版相比,SUE2.0 关键变化:
- RC Link 传输层 (必选) 替代旧版 RDMA Engine,提供端到端可靠重传
- 虚拟通道从 3 扩展为 8 (CBFC/PFC 均支持),支持 REQ/RSP 隔离防死锁
- 流控职责下放:PAXI Core 专注协议转换,CBFC 由 RC Link 管理
- 新增多播支持
流控两模式互斥:
- CBFC (Credit-Based Flow Control): per-VC credit 追踪,适配支持 CBFC 的交换机
- PFC (Priority Flow Control):基于 RX buffer 水位线,适配标准以太网交换机
限制:
- 路径唯一,不支持 ECMP 多路径
- Read 操作性能代价大,软件应尽量用 Write 替代 [DOC]
- Send/Receive 为严格 thread 级一对一配对
其他厂商方案有什么特点?
燧原 T20
节点内 PCIe Gen4 连接,节点间 InfiniBand (EDR/HDR 等级),依赖节点间网络承载 AllReduce。节点内带宽约 63 GB/s 双向,远低于 NVLink 或 HCCS (公开资料)。
壁仞 BR100
对外宣称超高单精度和混合精度算力,但互联架构公开信息极少。已知通过 PCIe 与主机连接,卡间直连互联规格未明确披露 (公开资料)。
海光 DCU
走 AMD MI 架构兼容路线,节点内类 xGMI/Infinity Fabric,软件栈兼容 ROCm。节点间配 IB 或 RoCE。公开规格显示节点内带宽低于 AMD MI 同代产品 (公开资料)。
与国际方案差距有多大?
带宽上 SG2262 @224G 接近 H100,HCCS 落后 NVLink 4.0 一档,软件生态分散是更大短板,见 @tbl-hw-cn-gap。
| 维度 | 国产主流方案 | NVIDIA (参考) | 差距 |
|---|---|---|---|
| 节点内单芯片带宽 | SG2262 @112G 448 / @224G 896 GB/s / HCCS ~400-560 GB/s | NVLink 4.0 900 / NVLink 5.0 1800 GB/s | SG2262 @112G 约 H100 一半,@224G 接近;HCCS 仍有差距;vs B200 均大幅落后 |
| 节点间网络 | 100 GbE RoCE (华为) / IB (部分) | IB NDR 400 / XDR 800 Gbps | 华为 RoCE 线速较低;燧原等用 IB 但生态成熟度弱 |
| 拓扑灵活性 | 固定 Mesh (HCCS 8 卡) / 多拓扑 (SG2262 含 Clos) | NVSwitch 全连接,任意 GPU 等带宽 | HCCS 固定 8 卡;SG2262 多拓扑相对灵活 |
| 软件生态 | HCCL (华为) / 各自私有 | NCCL 主导 + Megatron-LM 深度集成 | 互操作弱,缺统一集合通信库标准 |
| 交换机兼容性 | SG2262 基于以太网二层,兼容标准交换机 | NVSwitch 专有,生态封闭 | SG2262 开放度更高,可复用商用以太网 |
| 可靠性机制 | LLR + E2E Retry + CBFC (SG2262) | 硬件保障,成熟度高 | 国产机制完备,但大规模工程验证经验仍在积累 |
@tbl-hw-cn-gap 国产 vs 国际方案差距
Takeaway
| 知识点 | 核心结论 |
|---|---|
| 五类技术路线 | HCCS 私有协议 / SG2262 AXI-over-Eth / 燧原 PCIe+IB / 壁仞 PCIe / 海光 类 xGMI |
| HCCS 定位 | 类 NVLink,8 卡全连接 Mesh,CANN/HCCL 软件栈 |
| SG2262 PAXI | 复用标准以太网,1024 芯片规模,112G 档 448 GB/s |
| 软件生态短板 | 各家私有集合通信库,无统一标准 |
| 带宽差距 | SG2262 @224G 接近 H100,HCCS vs NVLink 4.0 仍有差距 |
| SG2262 开放优势 | 可复用商用以太网交换机,部署成本低于 NVSwitch 专有方案 |