跳到主要内容

CP 拐点地图报告

扫描 comm/compute 比值,圈定哪些 attention 算子 × 区间有拐点,为后续计算算子建模定优先级。

KBG

上下文并行(CP)把长序列切到多芯片,每芯片算本地 attention 但需跨芯片传 KV(pass-KV)。计算与通信能否重叠、通信何时暴露(拐点),决定 CP 收益评估的可信度。「G5-计算算子建模方法分层设计规格」定下顺序约束:先扫拐点地图圈定有拐点的算子区间,再精修那些算子的建模。

  • 算子多样性触发:现代 LLM 用 MLA / MHA / GQA / MQA / 稀疏 DSA 多种 attention,各自 KV 字节(c_kv)与计算规模差异大。不同算子的 comm/compute 比值是否同样落在「通信被掩盖」区间,未量化。
  • 稀疏 attention 改变计算规模:DSA 稀疏使 attention 计算从稠密 ∝ $S^2$ 降到 ∝ $S \cdot \text{topk}$。这是否使通信相对计算上升、拐点回到现实区间,无数据支撑判断。
  • 建模优先级无依据:对所有算子精修计算建模是过度工程,对有拐点算子粗放则 CP 结论失真。哪些算子 × 区间真有拐点(精修有价值)缺量化依据。

TASK

本研究扫描 {MLA, MHA, GQA, MQA, DSA} × cp × seq_len × c2c 带宽 × 算力 R 网格的 comm/compute 比值,产出拐点地图,圈定 ratio 接近 1(通信即将暴露、精修建模有价值)的算子区间。

KP

计算算子建模该精修哪些算子 × 哪些区间,没有数据依据——盲目对全算子精修是过度工程,对有拐点算子粗放则结论失真。

KO

用 comm/compute 比值圈定 ratio≥0.3(近拐点)的算子 × 区间,给后续算子建模优先级提供数据依据。范围:全常用 attention 算子集(MLA/MHA/GQA/MQA/DSA)× cp{1,2,4,8,16} × seq_len{128K–1M} × 带宽{100,200,400}GB/s × R{100,300,600}TFLOPS,共 900 格,相对比值(无绝对毫秒,无真机锚点)。

KT

用现成解析评估器(attention_flops 口径 + 组合法 pass-KV 公式)算每格 ratio = comm_time / compute_time,按 ratio 三分类:< 0.3 通信被掩盖(无拐点影响)、0.3–1 近拐点(精修有价值)、≥ 1 通信暴露。compute = $F_{\text{attn}}^{\text{每芯片}} / R$(稀疏 kv_len=topk、稠密 kv_len=S);comm = $S \cdot c_{kv} \cdot (cp-1)/cp / \text{BW}$

KA1 — MLA / GQA / MQA 无拐点,现有 matmul 近似已够

结论

MLA、GQA、MQA 三类在全网格内 comm/compute 比值均 < 0.1,无近拐点格子。通信被计算完全掩盖,完美重叠假设与真实重叠无差异。这三类算子的计算建模不需为 CP 精修——现有 matmul 近似足够,精修其向量/访存算子对 CP 结论影响近零。

数据

算子max_ratio近拐点格子数掩盖格子数
MLA0.0100144
GQA0.0860144
MQA0.0110144

@tbl-knee-noKnee 无拐点算子的比值分布(cp>1 格子)

MLA 的 c_kv 仅 576 元素/token(压缩 latent),MQA 仅 1 个 KV 头,GQA 8 个 KV 头——通信字节小;且三者计算稠密 ∝ $S^2$,大 S 区间计算压倒通信。

分析

稠密 attention 计算 ∝ $S^2$、通信 ∝ $S$,比值 ∝ $1/S$ 随 S 缩小。叠加小 c_kv(MLA 压缩、MQA/GQA 少 KV 头),realistic 区间通信占比 < 1%。完美重叠(max)与真实重叠在通信 << 计算时重合,精修建模无增益。这与既有 tracer-bullet 实测(MLA pass-KV 占 0.01–1%)一致。

KA2 — DSA 有拐点且不随 S 变,稀疏签名,优先精修

结论

DSA 在高 cp + 低带宽角落 comm/compute 比值达 0.618,出现 12 个近拐点格子。关键特征:比值不随 seq_len 变化(cp=16/BW100/R600 下 128K–1M 全为 0.618)——这是稀疏计算 ∝ $S \cdot \text{topk}$ 的签名。DSA 是后续计算算子建模的首要对象,拐点全 S 区间持续,scale-out(高 cp)时通信逼近暴露。

数据

DSA 近拐点格子(ratio≥0.3)集中在 cp=16、BW∈{100,200}、R∈{300,600}:

cpseq_lenBWRratio
16128K–1M(全)1006000.618
16128K1003000.309
16128K2006000.309

@tbl-knee-dsa DSA 近拐点格子(ratio 不随 S 变)

分析

DSA 稀疏使 kv_len = min(S, topk=2048),计算 ∝ $S \cdot \text{topk}$(不再 $S^2$)。比值 = comm($S \cdot c_{kv}$) / compute($S \cdot \text{topk}$) 中 S 约掉 → 比值与 S 无关,拐点在整个 S 区间持续存在,不像稠密那样大 S 自动消失。高 cp 放大通信(pass-KV ∝ (cp-1)/cp)+ 低带宽,把比值推到 0.6。此处完美重叠假设的乐观偏差变得可观(ratio 0.6 时 max 与真实重叠差约 10–20% step 时间),精修 DSA 的计算建模 + 真 overlap(A2)对 CP 结论有实质影响。

KA3 — MHA 有拐点但集中在小 S 高 cp,稠密大 c_kv 签名

结论

MHA 在小 seq_len + 高 cp + 低带宽角落比值达 0.687,出现 5 个近拐点格子。特征:拐点集中在小 S(128K/256K),大 S 区间消失——稠密 ∝ $S^2$ 计算大 S 压倒通信的签名,叠加大 c_kv(32768 元素/token)。MHA 在小上下文 + scale-out 场景需精修,长上下文不需。

数据

MHA 近拐点格子集中在 cp∈{8,16}、小 S(128K/256K)、BW∈{100,200}:

cpseq_lenBWRratio
16128K1006000.687
16128K1003000.343
8128K1006000.320

@tbl-knee-mha MHA 近拐点格子(集中小 S)

分析

MHA c_kv 大(全 KV 头,32768 元素/token,是 MLA 的 57×),通信字节大;但计算稠密 ∝ $S^2$,所以比值 ∝ $c_{kv}/S$ 随 S 增大而缩小。结果拐点出现在小 S(计算还没被 $S^2$ 拉大)+ 高 cp(通信放大)+ 低带宽。与 DSA 的 S-无关签名相反:MHA 的拐点随 S 增大而消失。含义:MHA 的精修只在小上下文高并行场景有价值。

部署建议

优先级算子区间行动
DSA高 cp(≥16)全 S,拐点持续首要精修:向量 roofline(softmax)+ topk 专用模型 + gather;配真 overlap(A2)
MHA小 S(≤256K)+ 高 cp次优精修,仅小上下文 scale-out 场景
MLA / GQA / MQA全区间无拐点现有 matmul 近似已够,不为 CP 精修

@tbl-knee-priority 后续算子建模优先级(数据驱动)

限制与未来工作

  • 相对非绝对:比值为相对趋势,无真机锚点,不给绝对毫秒。拐点位置随 R 平移(R 大拐点提前,已扫 R 曲线族)。
  • 比值未超 1:网格内 max_ratio 0.69,通信未完全暴露——拐点是「逼近」非「越过」。极端角落(BW<100 / cp>16 / 更小 topk)会越过,未扫。
  • comm 为解析 pass-KV ring:用组合法 allgather-ring 公式,未含真 c2c 拥塞(修错带宽域 A1 后可校验)。
  • 代表性 config:每算子取单一代表配置(DeepSeek-V3.2 MLA/DSA、Llama GQA),未扫模型内 config 变化(如 topk、KV 头数)。

维护信息

最后更新:2026-06-21。数据 experiment_id=41(data/llm_evaluations.db knee_map_results)+ docs/validation/CP拐点地图/data/knee_map.csv。对应「G5-计算算子建模方法分层设计规格」顺序约束第一步。