国产互联方案

华为 HCCS、算能 PAXI 等国产 GPU 互联方案的规格与与 NVLink 的差距

核心要点：

华为 HCCS：类 NVLink 私有协议，8 卡全连接，CANN/HCCL 软件栈

算能 SG2262 PAXI: AXI over Ethernet，复用标准以太网交换机

燧原 / 壁仞 / 海光：节点内多走 PCIe 或类 xGMI，节点间走 IB/RoCE

与 NVLink 5.0 (B200) 差距仍较大；SG2262 224G 档接近 H100

主要短板：软件生态分散，缺乏统一集合通信库标准

受限于公开信息，非本项目芯片（华为/燧原/壁仞/海光）的部分参数为公开资料估算值，标注"（公开资料）"。SG2262 参数来自内部设计文档，标注"[DOC]"。

主要技术路线长什么样？

五类方案，节点内带宽差异巨大（63 GB/s 到 896 GB/s），见 @tbl-hw-cn-overview。

技术	厂商/芯片	单芯片节点内带宽（双向）	协议基础	最大互联规模	主要特点
HCCS	华为 / Ascend 910B	~400 GB/s （估，公开资料）	自研私有	8 卡全连接	类 NVLink，CANN 软件栈
C2C (PAXI)	算能 / SG2262	448 GB/s @ 112G [DOC]	PAXI (AXI over Ethernet)	1024 芯片（含交换机）	复用标准以太网交换机
RoCE + PCIe	燧原 / T20	受限于 PCIe Gen4 (~63 GB/s)	标准 RoCEv2	取决于网络规模	节点内带宽低，依赖节点间 RDMA
xGMI (ROCm)	海光 / DCU Z100L	~128-400 GB/s （公开资料）	兼容 AMD xGMI	公开资料不足	对标 AMD MI250，ROCm 生态
PCIe Gen4	壁仞 / BR100	~63-100 GB/s （公开资料）	PCIe + 私有	公开信息有限	算力标称极高，互联细节未公开

@tbl-hw-cn-overview 国产互联主要技术路线

华为 HCCS 长什么样？

对标 NVLink 的私有协议，8 卡全连接 Mesh，配套 CANN/HCCL 软件栈。

搭载芯片：昇腾系列，定位对标 NVIDIA NVLink，用于单节点内多卡全连接（公开资料）。

规格 (@tbl-hw-cn-hccs):

参数	Ascend 910	Ascend 910B	来源
节点内 HCCS 总带宽	~400 GB/s	~400-560 GB/s （估）	公开资料
单节点芯片数	8	8	公开资料
互联拓扑	全连接 Mesh （8 卡）	全连接 Mesh （8 卡）	公开资料
节点间互联	100 GbE RoCE	100 GbE RoCE	公开资料

@tbl-hw-cn-hccs HCCS 规格

Atlas 900 集群：每节点 8 张 Ascend 910B，节点内 HCCS 全连接；节点间 100 GbE RoCE （华为 MindX 网络）。典型 1024 卡规模下 128 节点通过 RoCE Spine-Leaf 组网（公开资料）。

软件栈：华为 CANN (Compute Architecture for Neural Networks) 提供与 NCCL 对标的集合通信库 HCCL。两者 API 语义兼容，但底层实现和调优不互通（公开资料）。

算能 PAXI / SG2262 的设计思路是什么？

把片上 AXI4 总线事务透明映射到以太网物理链路，复用标准以太网交换机。

PAXI (Protocol of Accelerated eXchange Interconnect) 由合见工业软件 (UniVista) 提供 IP 核。软件视角下远端芯片内存与本地地址空间无差异。

完整协议建模细节见 docs/specs/G5仿真建模/ （G5-CDMA / G5-PAXICore / G5-RC-Link 设计规格）。

关键规格 (@tbl-hw-cn-paxi):

参数	值	来源
SerDes 速率档位	56 / 112 / 224 Gbps per lane	[DOC]
每芯片 C2C 端口	8 组 ×4 Link	[DOC]
单芯片 C2C 总带宽（单向）	224 GB/s @ 56G / 448 GB/s @ 112G / 896 GB/s @ 224G	[DOC] （8 × 4 × 速率 / 8）
PAXI 有效带宽 @ 112G （含协议头）	~432 GB/s （封装效率 96.4%）	[DOC] (448 × 1344 / (1344+50))
最大互联规模	1024 芯片（经交换机） / 8 芯片（直连 cube）	[DOC]
L1 cluster 最大规模	32 芯片	[DOC]
AXI-to-AXI 端到端延迟	低至 150 ns @ 400G （P2P 直连，无 NoC）	[DOC]
虚拟通道数 (VC)	8 (CBFC/PFC)	[DOC]
OST 上限 (TYPE1)	512 outstanding 请求	[DOC]
多播支持	最多 8 组 × 16 设备/组	[DOC]

@tbl-hw-cn-paxi SG2262 C2C / PAXI 规格

支持的拓扑 (@tbl-hw-cn-paxi-topo):

拓扑	层级	最大规模	交换机需求
clos	单层	1024 芯片	需要（可多层 Clos）
cube	单层	8 芯片	无（直连）
all2all + clos	两层 (L1 + L2)	1024 芯片	L2 需交换机
clos + clos	两层	1024 芯片	L1、L2 均需
低成本 all2all + clos	两层	1024 芯片（L2 带宽受限）	L2 单轨交换机

@tbl-hw-cn-paxi-topo PAXI 支持的拓扑

协议栈 （SUE2.0 五层）：SerDes (112G PAM4) → CESOC (MAC/PCS/FEC) → RC Link （传输层，Go-Back-N 重传，CBFC 流控） → PAXI Core （事务层，AXI ↔ Flit） → 应用层 (AXI4/APB3)。

与旧版相比，SUE2.0 关键变化：

RC Link 传输层（必选）替代旧版 RDMA Engine，提供端到端可靠重传
虚拟通道从 3 扩展为 8 （CBFC/PFC 均支持），支持 REQ/RSP 隔离防死锁
流控职责下放：PAXI Core 专注协议转换，CBFC 由 RC Link 管理
新增多播支持

流控两模式互斥：

CBFC (Credit-Based Flow Control): per-VC credit 追踪，适配支持 CBFC 的交换机
PFC (Priority Flow Control)：基于 RX buffer 水位线，适配标准以太网交换机

限制：

路径唯一，不支持 ECMP 多路径
Read 操作性能代价大，软件应尽量用 Write 替代 [DOC]
Send/Receive 为严格 thread 级一对一配对

其他厂商方案有什么特点？

燧原 T20

节点内 PCIe Gen4 连接，节点间 InfiniBand （EDR/HDR 等级），依赖节点间网络承载 AllReduce。节点内带宽约 63 GB/s 双向，远低于 NVLink 或 HCCS （公开资料）。

壁仞 BR100

对外宣称超高单精度和混合精度算力，但互联架构公开信息极少。已知通过 PCIe 与主机连接，卡间直连互联规格未明确披露（公开资料）。

海光 DCU

走 AMD MI 架构兼容路线，节点内类 xGMI/Infinity Fabric，软件栈兼容 ROCm。节点间配 IB 或 RoCE。公开规格显示节点内带宽低于 AMD MI 同代产品（公开资料）。

与国际方案差距有多大？

带宽上 SG2262 @224G 接近 H100，HCCS 落后 NVLink 4.0 一档，软件生态分散是更大短板，见 @tbl-hw-cn-gap。

维度	国产主流方案	NVIDIA （参考）	差距
节点内单芯片带宽	SG2262 @112G 448 / @224G 896 GB/s / HCCS ~400-560 GB/s	NVLink 4.0 900 / NVLink 5.0 1800 GB/s	SG2262 @112G 约 H100 一半，@224G 接近；HCCS 仍有差距；vs B200 均大幅落后
节点间网络	100 GbE RoCE （华为） / IB （部分）	IB NDR 400 / XDR 800 Gbps	华为 RoCE 线速较低；燧原等用 IB 但生态成熟度弱
拓扑灵活性	固定 Mesh （HCCS 8 卡） / 多拓扑（SG2262 含 Clos）	NVSwitch 全连接，任意 GPU 等带宽	HCCS 固定 8 卡；SG2262 多拓扑相对灵活
软件生态	HCCL （华为） / 各自私有	NCCL 主导 + Megatron-LM 深度集成	互操作弱，缺统一集合通信库标准
交换机兼容性	SG2262 基于以太网二层，兼容标准交换机	NVSwitch 专有，生态封闭	SG2262 开放度更高，可复用商用以太网
可靠性机制	LLR + E2E Retry + CBFC (SG2262)	硬件保障，成熟度高	国产机制完备，但大规模工程验证经验仍在积累

@tbl-hw-cn-gap 国产 vs 国际方案差距

Takeaway

知识点	核心结论
五类技术路线	HCCS 私有协议 / SG2262 AXI-over-Eth / 燧原 PCIe+IB / 壁仞 PCIe / 海光类 xGMI
HCCS 定位	类 NVLink，8 卡全连接 Mesh，CANN/HCCL 软件栈
SG2262 PAXI	复用标准以太网，1024 芯片规模，112G 档 448 GB/s
软件生态短板	各家私有集合通信库，无统一标准
带宽差距	SG2262 @224G 接近 H100，HCCS vs NVLink 4.0 仍有差距
SG2262 开放优势	可复用商用以太网交换机，部署成本低于 NVSwitch 专有方案

主要技术路线长什么样？​

华为 HCCS 长什么样？​

算能 PAXI / SG2262 的设计思路是什么？​

其他厂商方案有什么特点？​

燧原 T20​

壁仞 BR100​

海光 DCU​

与国际方案差距有多大？​

Takeaway​