总览

本章节范围：AI 集群通信仿真工具栈 — 从秒级 $\alpha$-$\beta$ 分析模型到小时级 NS-3 包级仿真，加上芯片内 SystemC/TLM 建模。 目标读者：做集群通信精度验证、并行策略选型、芯片间互联协议设计的工程师。

范围与边界

包含：ASTRA-sim 三层架构与三种后端 (Analytical / NS-3 / Garnet); SimAI 四组件全栈 (AICB + SimCCL + ns-3-alibabacloud + Physical); NS-3 RDMA / RoCEv2 / DCQCN 包级建模；SystemC/TLM 在 NoC / DMA / C2C 的应用；事件驱动分析式仿真与 NS-3 包级的精度差距来源。
不包含：集合通信算法本身 ($\alpha$-$\beta$ 公式见 06-通信性能建模)；路由算法机制 (见 03-路由算法)；真实集群部署运维 (见 09-推理服务化通信)。

名词定义

名词	定义
离散事件仿真 (DES)	将系统状态变化抽象为时间轴上的事件序列，逐事件推进仿真时钟；NS-3 / ASTRA-sim 均基于此
Chakra ET	MLCommons 标准的 AI 工作负载 DAG 格式 (.et, protobuf)，节点为算 / 通信算子，边为数据依赖
Analytical 模式	用 $\alpha$-$\beta$ 等解析公式直接计算通信延迟，不模拟数据包流动，秒级速度无拥塞效应
Simulation 模式	逐包仿真数据在网络中的传输，含排队 / 拥塞控制 / 丢包重传，分钟-小时级速度高精度
DCQCN	RoCEv2 网络中基于 ECN 标记和速率控制的拥塞控制协议
HPCC	基于 INT 带内遥测的高精度拥塞控制 (SIGCOMM'19)
TLM (Transaction-Level Modeling)	SystemC 中的事务级建模抽象，用函数调用表示总线传输，比周期精确快 5-20×
Cycle-accurate (CA)	逐时钟周期模拟硬件行为，精度最高但速度最慢
busbw.yaml	SimAI Analytical 模式中按（并行维度 × 集合操作）二维矩阵配置等效带宽
NVLS (NVLink-Sharp)	NVSwitch 网内归约，把 AllReduce 步数从 $2(N-1)$ 压到 2 步
PXN (PCIe × NVLink)	NCCL 2.12 引入的路由优化，GPU → NVLink → 同节点 GPU → NIC，绕开 CPU
QP (Queue Pair)	RDMA 中 send / recv queue 的逻辑封装单元，每流独立

@tbl-sim-glossary 第 7 章共享名词表

工具定位速览

┌──────────────────────────────────────────────────────────────┐
│  应用层  - 训练 / 推理工作负载                                │
│  ↓                                                            │
│  框架层  - ASTRA-sim (三层架构) / SimAI (全栈)                │
│  ↓                                                            │
│  网络后端 - Analytical (秒) | NS-3 (分钟) | Garnet (小时)     │
│  ↓                                                            │
│  芯片内  - SystemC/TLM (TLM AT / CA), gem5 + Garnet           │
└──────────────────────────────────────────────────────────────┘

各工具在精度 / 速度 / 规模上的取舍：

工具	建模精度	仿真速度	适用规模	主要局限
ASTRA-sim Analytical	低-中 (5%–30%+)	最快（秒级）	1M+ NPU	无拥塞建模，小规模 / 大消息时精度尚可
SimAI Analytical	中 (~5%)	秒级	大规模参数扫描	busbw 参数需实测校准
ASTRA-sim NS-3	中（基础规模 5%，大规模 530%+）	分钟级	≤128 GPU	拥塞控制建模不足，规模扩展精度急剧下降
SimAI NS-3 (ns-3-alibabacloud)	高 (~1.9%)	分钟-小时级	128–1024 GPU	同构集群假设，规模受 NS-3 性能限制
SystemC TLM AT	高（协议相位级）	中等（CA 的 5–20×）	≤64 芯片	仅建模芯片内部，不适合集群级分析
SystemC CA	最高（逐周期）	最慢（小时-天级）	≤16 芯片	规模极受限，主要用于芯片设计验证

@tbl-sim-accuracy-speed-matrix 仿真工具精度-速度-规模权衡矩阵

误差数据可比性提醒：以上数据来自各工具官方论文，测试条件不同，不可直接横向比较。SimAI 98.1% 精度在 512–1024 GPU 集合通信层面验证，ASTRA-sim 5% 误差仅在 ≤16 GPU 单操作下测得。

按目的选型

大规模集群参数空间扫描 （调研 / 设计探索） → SimAI Analytical 或 ASTRA-sim Analytical 后端。秒级执行，可扫数百种并行策略 / 拓扑组合。SimAI 的 busbw.yaml 比 ASTRA-sim 固定拓扑参数更细，适合 MoE EP AllToAll 建模。

发表质量精度验证 → SimAI NS-3 Simulation 模式 (ns-3-alibabacloud)。完整 DCQCN / HPCC 闭环 + 真实 QP 状态机 + 完整 PFC / ECN 行为，98.1% 精度。代价：分钟到小时级仿真时间。

快速性能估算 （工程评估 / 实时交互） → $\alpha$-$\beta$ 分析模型 (见 06-通信性能建模)。微秒到秒级响应，适合交互式工具。关键是参数标定：从 nccl-tests 实测提取 $\alpha$ / $\beta$，而非用规格书峰值。

芯片内部通信建模 （NoC / DMA / C2C 协议验证） → SystemC TLM AT 或 gem5 + Garnet (HeteroGarnet)。两者都提供协议相位级精度。若优先工程效率，纯 Python SimPy 可实现约 80% 建模能力。

子文档索引

7.2 ASTRA-sim — 三层分离架构 (Workload / System / Backend); Chakra ET；集合通信分解；Analytical / NS-3 后端配置。
7.3 SimAI — 四组件全栈 (AICB / astra-sim-alibabacloud / SimCCL / ns-3-alibabacloud); 13+ 算法变体 (Ring / Tree / NVLS / PXN)；生产拓扑模板。
7.4 NS-3 — NS-3 离散事件内核；ns3-rdma / HPCC / ns-3-alibabacloud 三套 RDMA 扩展对比；与 SystemC 的职责分界。
7.5 SystemC / TLM — SystemC 抽象 (sc_module / sc_signal / delta-cycle); TLM 2.0 三种风格 (UT / LT / AT / CA)；在 NoC / DMA / C2C 的应用。
7.6 分析式 vs NS-3 包级 — 事件驱动分析式仿真 vs SimAI NS-3 包级仿真的逐层精度差距分析；拥塞控制闭环缺失是最大误差源。

范围与边界​

名词定义​

工具定位速览​

按目的选型​

子文档索引​

范围与边界

名词定义

工具定位速览

按目的选型

子文档索引