跳到主要内容

多目标与异构

Pareto 输出、Chiplet / 多 die 建模、跨代 GPU 混部、能耗与 TCO——perf model 的两条正交轴

核心要点:

  • 单目标 perf model 失真:Goodput(SLO 约束吞吐)与 raw throughput 不等价,DistServe 已成为业界标准
  • 异构 PD 真省:Splitwise-HA(H100 prefill + A100 decode)1.4× 吞吐 + 20% 降本,Mélange 节省 33-77%
  • Chiplet 可否当单 GPU 建,看 die 间互联是否压倒 HBM:B200 NV-HBI 10 TB/s >> HBM 3.35 TB/s 可以简化,Ascend 910C die 间 2 TB/s 不行
  • Power capping 在 decode 阶段几乎无效(arXiv:2605.11999 实证),SM clock locking 才是真招:节能 24-32% / 吞吐损失 < 1%
  • LLMflation:推理成本每年 10× 下降(a16z 2024 报告),DSE 必须包含 TCO 维度才能算清楚部署经济性
  • 多目标搜索成本巨大但可工程化:Vidur-Search CPU 1 小时完成等价 $218K 的 GPU 实验

名词定义

名词定义
Goodput满足 SLO 的吞吐(DistServe 定义),非 raw throughput
Pareto 前沿在多目标空间中无法在不损失一个目标的前提下改善另一个目标的解集
MFUModel FLOPs Utilization,实测吞吐对应 FLOPs / 峰值算力
Chiplet多个独立 die 经先进封装组装的多芯片单元
D2DDie-to-Die 互联,UCIe / NVLink-C2C / BoW 等标准
Power capping限定芯片功率上限,触发 DVFS 调频
TCOTotal Cost of Ownership,Capex + Opex
Capex / Opex资本支出(硬件) / 运营支出(电费 + 运维 + 人力)
LLMflationa16z 提出术语,描述 LLM 推理成本年降 10× 现象

本篇范围

本篇覆盖 perf model 的两条正交轴——多目标输出异构系统建模。它们与 02-05 的资源域 / scheduler 是正交关系:任何一个 perf model 都可以选择"输出几个目标"和"系统是否异构",这两个维度独立于资源建模本身。

包含:

  • 业界 perf model 关心的目标全集与 goodput 定义
  • Chiplet / 多 die 建模(同构拼接 vs 异构 die 边界)
  • 跨代 GPU 混部:Splitwise-HA / Mélange / Helix / HexGen
  • 能耗与 power capping 的反直觉发现
  • TCO 拆分与公开定价数据

不包含:

  • 具体能耗机制(DVFS 物理实现)——见硬件章
  • Chiplet 工艺细节(SoIC / CoWoS 封装实现)——见硬件章
  • 单芯片 perf model(同构 die 内部)——见 02 / 03 / 04 篇

多目标空间

业界 perf model 关心的目标全集

主流 LLM perf model 输出 10 项目标,按维度分四组:

目标定义
延迟TTFTTime To First Token,prefill 完成时间
TPOTTime Per Output Token,decode 阶段 inter-token 间隔
E2E latency端到端响应时间
P99 tail99 分位尾延迟
吞吐TPSTokens Per Second,系统级
Goodput满足 SLO 的请求率(DistServe 提出)
SLO 命中率满足 SLO 的请求比例
效率MFUModel FLOPs Utilization
经济Cost/token$/M tokens
Energy/tokenJ/token

@tbl-ipm-mo-objectives perf model 关心的 10 项目标全集

Goodput:为什么 raw throughput 失效

DistServe(OSDI 2024,arXiv 2401.09670)verbatim 定义:

maximize per-GPU goodput, defined as the maximum request rate that can be served adhering to the SLO attainment goal (say, 90%) for each GPU provisioned

后续工作(arXiv 2410.14257)给出形式化:

$$\begin{equation} \text{Goodput} = \frac{1}{T} \sum_{r \in R} \mathbf{1}(\forall i,\ t_i \le d_i) \cdot n_r \label{eq:ipm-mo-goodput} \end{equation}$$

其中 $\mathbf{1}(\cdot)$ 是仅当请求所有 token 满足 SLO 时为 1 的指示函数,$n_r$ 是请求 token 数。

Throughput 与 goodput 不等价——传统优化 raw throughput 会牺牲尾延迟,导致 SLO 命中率下降,反而损失"有效收入"。DistServe 实测 A100 单卡 goodput $\approx 1.6$ rps(TTFT + TPOT 双 SLO,90% 命中)。所有 SLO 评估必须用 goodput。

Pareto 前沿与 DSE 工具

主流 perf model 的多目标 DSE 输出:

工具多目标输出方式典型 Pareto 数据
Vidur-SearchQPS / dollar 单目标,SLO 作为约束CPU 1 小时完成 LLaMA2-70B 配置搜索,等价 $218K GPU 实验
LLMCompasslatency / throughput / cost 三维设计点throughput-oriented 3.41× perf/cost(vs A100);latency-oriented 95.3% perf 用 42.1% 更少 die area
Calculontime / memory / bandwidth 约束扫描训练 co-design 为主
MLPerf Inference每代芯片官方 benchmarkH100 3,066 tokens/s/GPU(LLaMA 2 70B);H200 较 H100 + 40%;Blackwell GB200 NVL72 较 H100 ~ 4×

@tbl-ipm-mo-dse-tools 主流多目标 DSE 工具横向对比

Pareto 形状比单点更有信息量——前沿平坦区间意味某目标对决策不敏感,陡峭区间意味小幅权衡代价极高。perf model 应输出局部斜率信息,而不只是"哪个最优"。

Chiplet / 多 die 建模

业界 chiplet AI 芯片实例

按结构分两类:

同构双 die(等价于一颗 GPU):

芯片Die 数D2D 互联D2D 带宽
NVIDIA B2002 GPU dieNV-HBI10 TB/s
Apple M2 Ultra2 dieUltraFusion2.5 TB/s
华为 Ascend 910C2 diecross-die~ 2 TB/s

异构多 die(算力 + IO + memory):

芯片Die 组成互联
AMD MI300X8 XCD + 4 AID + HBM3SoIC hybrid bond
AMD MI300A3 CCD + 6 XCD + 4 AIDSoIC hybrid bond
NVIDIA GB2002 GPU die + 1 CPU dieNVLink-C2C 900 GB/s

@tbl-ipm-mo-chiplet-instances 业界 chiplet AI 芯片实例

D2D 互联标准

标准延迟能效带宽密度
UCIe 1.1< 2 ns~ 0.5 pJ/bit32 GT/s/lane
BoW< 4 ns0.25-1 pJ/bit320 Gbps/mm 至 1+ Tbps/mm
CoWoS封装载体(非 D2D 协议)HBM3 每 stack 665 GB/s
NV-HBI(B200)厂商专有10 TB/s
NVLink-C2C(GB200)厂商专有900 GB/s

@tbl-ipm-mo-d2d-specs D2D 互联标准对比

UCIe < 2 ns 在 2 GHz 系统约引入 4 个额外时钟周期——这是 chiplet 边界在 cycle 级建模的最小延迟单位。

关键判据:Chiplet 能否当单 GPU 建模

条件:die 间互联带宽 >> 跨 die 实际流量

  • B200 满足:NV-HBI 10 TB/s vs HBM 3.35 TB/s,die 间带宽近 3× HBM,跨 die 流量被吸收 → 可当单 GPU 建模
  • Ascend 910C 不满足:die 间 2 TB/s 与单 die HBM 1.6 TB/s 同量级 → die 边界是实际瓶颈,perf model 必须显式建 die 间通信节点

异构多 die 的瓶颈层

AMD MI300X 三层结构(XCD → AID → HBM):

  • XCD:8 个计算 die,各自有本地缓存
  • AID(Active Interposer Die):IO 与互联,AID pin bandwidth 2.1 TB/s 是整个系统内存带宽天花板
  • HBM3:每 stack 665 GB/s,4 stack 总 2.66 TB/s——但被 AID pin 限到 2.1 TB/s

对建模的含义:perf model 不能简单把 4 个 HBM stack 带宽相加,必须显式建 AID 作为带宽约束层。跨 AID 的 XCD-to-XCD 通信还要加一跳延迟,这是异构 chiplet 与单片 GPU 在 perf model 中的根本差异。

SystemC AT 中的 chiplet 边界

TLM-2.0 AT 建模:chiplet 边界用四相 AT socket 表示,D2D link 组件注入 latency_ns + size/bandwidth_gb_per_s 延迟,背压实现限速。具体 SystemC pattern 见 02 Compute 篇的 SystemC AT 节,这里只点出 chiplet 边界是 AT 在 G5 建模里的另一个杀手级用例(与 04 Interconnect 篇的判断一致)。

跨代 GPU 异构混部

不同代 GPU 算力 / 带宽 / 价格特性不同,把它们组合部署可显著省成本。四种典型方案:

Splitwise-HA(异构 PD 分离)

H100 做 prefill pool(算力强,prefill compute-bound)、A100 做 decode pool(性价比高,decode memory-bound)。论文 abstract verbatim:

  • 1.4× 吞吐 + 20% 成本降低
  • 或同等预算下 2.35× 吞吐提升

系统维护三个资源池(prompt / token / mixed),机器可动态迁移。

Mélange(按请求路由)

UCBerkeley 工作,把 GPU 分配建模为 cost-aware bin-packing + ILP。决定最优 GPU 型号的三维:请求大小、请求速率、SLO。

  • A100 在短 context + 严格 SLO 下比 A10G 好 2×
  • A10G 在宽松 SLO 下比 A100 好 > 40%
  • 节省 verbatim:对话场景最高 77%,文档场景 33%,混合场景 51%
  • 测试型号:L4 / A10G / A100 / H100

Helix / HexGen

  • Helix(MLSys 2025):max-flow on directed weighted graph,联合优化 placement + scheduling,2.5× 吞吐 + 40% 成本降低
  • HexGen(ICML 2024):非对称 TP + PP,同预算下 4× 请求速率

"Demystifying" 实测发现

ICLR 2025 工作做了 6 种 GPU 的 MILP 分析,发现:memory-bound 任务用工作站 GPU(A40 / L40)性价比反而高于 H100 / A100——单位美元提供 1.8× 内存容量。这颠覆了"H100 万能"的直觉。

跨厂商异构

B200(prefill)+ Gaudi 3(decode)在 decode-heavy 场景下 TCO 是 H100:H100 部署的 4×。KV cache 跨硬件格式转换开销仅 20-50 μs——这意味着跨厂商异构在工程上可行,瓶颈不在格式转换。

能耗与 Power Capping 的反直觉发现

LLM 推理能耗实测跨度极大,且 power capping 在 decode 阶段几乎无效——这两点都违反直觉。

Joules per Token 实测

场景能耗
LLaMA-65B,小 batch,V100/A100(Samsi 2023)3-4 J/token
Llama-3.3-70B,FP8,batch 128,8×H1000.39 J/token
MLPerf Power LLaMA 2 70B111.4 J/Sample

@tbl-ipm-mo-jpt 各场景 J/token 实测

10× 差距——优化 / 未优化、量化 / 全精度、batch 大小都是 perf 与能耗的双重杠杆。FP8 量化节能约 30%。

模型规模的次线性能耗

参数增 70× 能耗仅增 7.3×——大模型 MFU 更高,边际能耗效率反而好。这是大模型经济性的能耗根据。

Power Capping 在 Decode 几乎无效

arXiv:2605.11999("Illusion of Power Capping")实测:

  • H200 decode 阶段实际功耗 137-300 W,远低于 280-700 W 的所有 cap 阈值
  • 因此 power cap 节能 0%

decode 是 memory-bound,SM 大量空转等 HBM,功率本来就不高,cap 上限以下没东西可压。

真正有效的手段:SM Clock Locking

  • 节能 24-32%
  • 吞吐损失 < 1%

锁低 SM 时钟让 compute 慢下来"匹配"memory 速度,而不是 cap 总功率。

Prefill 阶段 cap 有效

prefill 是 compute-bound,cap 有效:

  • 175 W cap(vs 250 W):节能 23.21%,时延 + 6.7%
  • 150 W cap:时延 + 15-35%

DynamoLLM(HPCA 2025)

首个 LLM 推理集群能耗-性能 DSE 框架:节能 53% / 降碳 38% / 降本 61%,P99 SLO 仍达标。配置空间为实例数 × TP 度 × GPU 频率(0.8-2.0 GHz)。

Perf Model 中的能耗建模

  • 解析(FLOP × TDP):对 decode memory-bound 误差可达 3-5×,文献明确指出"naive FLOPs estimates significantly underestimate"
  • Phase-aware 分段:prefill 用 compute-power,decode 用 memory-power,精度高于简单 FLOPs
  • Profile-based(NVML / nvidia-smi):精度最高但需真实硬件

最佳实践:解析模型做 DSE 扫描,profile 数据标定系数。

Carbon

LLMCarbon(ICLR 2024)覆盖训练 + 推理 + 存储,GPT-3 推理碳排预测误差 < 3.3%。典型推理碳排约 0.025-0.24 gCO2/M tokens(取决于优化程度与电网碳强度)。

成本与 TCO 建模

标准成本公式

$$\begin{equation} \text{Cost}_{\text{per M tokens}} = \frac{\text{GPU \$/hr}}{\text{TPS} \times 3600} \times 10^6 \label{eq:ipm-mo-cost-per-m} \end{equation}$$

Batch 是最大杠杆——batch=1 vs batch=32 可使 TPS 相差 5-10×,即成本相差一个量级。

LLMflation:每年 10× 下降

a16z 2024 报告 LLMflation:同等能力推理成本每年 10× 下降,2021 → 2024 三年降幅 1000×。

对 perf model 的含义:绝对成本数字时效性极短,perf model DSE 应输出相对成本(配置 A vs 配置 B 的比值),而不是绝对 $/M tokens——绝对值半年内可能过时。

TCO 拆分

集群规模CapexOpex
Meta 24k H10070.7%29.3%(电费 9.3%,托管 ~ 20%)
100 卡(Introl 5 年模型)36%64%(人力 39%,电费 23%)

@tbl-ipm-mo-tco TCO 拆分按集群规模

关键观察:大集群 Capex 主导(规模化稀释 Opex),小集群 Opex(尤其人力)主导。GPU 折旧按 4-5 年计。

Cloud vs On-Prem

形式价格
AWS p5.48xlarge(8×H100)on-demand$55.04/hr ≈ **$6.88/GPU-hr**
AWS 1 年 RI$23.78/hr
Azure ND96isr H100 v5$98.32/hr ≈ $12.29/GPU-hr
GCP a3-highgpu-8g$9.46/GPU-hr
自建 8×H100(含运营)$1.91/GPU-hr

@tbl-ipm-mo-cloud-onprem 云 vs 自建 GPU 小时成本

  • AWS on-demand 比自建贵 3.6×
  • 1 年 RI 后差距收窄至 1.6×
  • 损益平衡利用率 60-70%

公开 Inference 定价反推

模型Input $/M tokensOutput $/M tokens
GPT-4o(2024-10 降价后)$2.50$10.00
Claude 3.5 Sonnet$3$15
Claude Opus 4.x$5$25
Llama-3 70B 自建(高流量)$0.69
Llama-3 70B 自建(低流量单流)$13.90
Together.ai Llama-3.2 3B$0.06

@tbl-ipm-mo-pricing 公开 LLM 服务定价(2024)

低流量 vs 高流量自建成本差 20×——这是 batch 杠杆在生产数字上的体现。

TCO 进 perf model DSE

$$\begin{equation} \text{Cost}_{\text{per M tokens}} = \frac{\text{cluster\_cost\_per\_hr}}{\text{cluster\_TPS} \times 3600} \times 10^6 \label{eq:ipm-mo-tco-dse} \end{equation}$$

其中 cluster_TPS 直接来自 perf model 输出。DSE 多目标 Pareto 典型设置:x 轴 $/M tokens,y 轴 TTFT 或 MFU,在 SLA 约束(如 TTFT < 100 ms)下选最低成本配置。

升降档判据(多目标 / 异构)

  • 回答"哪个并行配置在我的预算下最快":必须含 TCO 维度,单纯 TPS 选型会失真
  • 回答"chiplet 系统瓶颈在哪":必须显式建 die 间与 AID 等约束层,不能把多 die 当单 GPU
  • 回答"异构 PD 划分多少卡":必须独立建 prefill / decode 两资源池 + KV 传输事件
  • 回答"能不能开 power cap 省电":必须 phase-aware 区分 prefill 与 decode——decode 阶段答案是"开了也没用"
  • 回答"明年成本会怎样":LLMflation 让绝对数字快速过时,只能给相对趋势

G5 落地视角(多目标 / 异构)

G5(SystemC AT)在多目标与异构维度的角色:

  • Chiplet 边界:SystemC AT 是 chiplet 边界建模的杀手级用例(与 02 / 04 篇判断一致)。die 间四相握手 + back pressure 是 G5 在异构 chiplet 上的核心实现
  • 能耗扩展:G5 标定时同时记录 power trace(NVML 风格采样),输出 J/token 与 cycle 数双指标——为上层 phase-aware 能耗建模喂数
  • TCO 不在 G5 范围:G5 输出 cycle 与 power,TCO 计算在上层 DSE 框架(Vidur-Search 类)消费 perf model 输出后做

Takeaway

知识点核心结论
GoodputSLO 约束吞吐,与 raw throughput 不等价,DistServe 已成标准
Pareto 工具Vidur-Search(QPS/$)、LLMCompass(三维设计点)、Calculon(training co-design)
Chiplet 可简化判据die 间互联 >> HBM,B200 可简化 / 910C 不可
AMD MI300 AID 瓶颈AID pin 2.1 TB/s 是系统带宽天花板,4 stack HBM 加和被截断
异构 PDSplitwise-HA 1.4×/20%,Mélange 33-77%,Helix 2.5×/40%,HexGen 4×
Power capdecode 无效,SM clock locking 24-32% 才是真招
LLMflation推理成本年降 10×,perf model 输出相对成本而非绝对
TCO 结构大集群 Capex 主导(70%+),小集群 Opex 主导(人力)
云 vs 自建AWS on-demand 贵 3.6×,1-yr RI 后 1.6×,平衡利用率 60-70%

开放问题

  • 异构系统 MFU 定义:以峰值算力最高的设备为分母,还是以加权平均为分母——业界尚无统一定义,perf model 输出 MFU 时必须明示口径
  • 静态 perf model 在动态负载下的有效性:真实部署 batch 与请求混合在波动,Pareto 前沿在动态负载下是否仍成立——需要 stochastic perf model 但业界少有
  • 跨变量相关性:能耗 / 成本 / 性能在 perf model 中常作为独立目标输出,但物理上耦合(高 MFU → 低 J/token → 低 $/token),DSE 应建联合分布而非边缘分布
  • 国产 AI 芯片公开 perf 数据缺失:Ascend / 寒武纪 / 壁仞 / 燧原的 perf model 与 MLPerf 同口径数据稀少,跨厂商异构混部研究受限

参考资料

延伸阅读