CP 拐点地图报告

扫描 comm/compute 比值，圈定哪些 attention 算子 × 区间有拐点，为后续计算算子建模定优先级。

KBG

上下文并行（CP）把长序列切到多芯片，每芯片算本地 attention 但需跨芯片传 KV（pass-KV）。计算与通信能否重叠、通信何时暴露（拐点），决定 CP 收益评估的可信度。「G5-计算算子建模方法分层设计规格」定下顺序约束：先扫拐点地图圈定有拐点的算子区间，再精修那些算子的建模。

算子多样性触发：现代 LLM 用 MLA / MHA / GQA / MQA / 稀疏 DSA 多种 attention，各自 KV 字节（c_kv）与计算规模差异大。不同算子的 comm/compute 比值是否同样落在「通信被掩盖」区间，未量化。
稀疏 attention 改变计算规模：DSA 稀疏使 attention 计算从稠密 ∝ $S^2$ 降到 ∝ $S \cdot \text{topk}$。这是否使通信相对计算上升、拐点回到现实区间，无数据支撑判断。
建模优先级无依据：对所有算子精修计算建模是过度工程，对有拐点算子粗放则 CP 结论失真。哪些算子 × 区间真有拐点（精修有价值）缺量化依据。

TASK

本研究扫描 {MLA, MHA, GQA, MQA, DSA} × cp × seq_len × c2c 带宽 × 算力 R 网格的 comm/compute 比值，产出拐点地图，圈定 ratio 接近 1（通信即将暴露、精修建模有价值）的算子区间。

KP

计算算子建模该精修哪些算子 × 哪些区间，没有数据依据——盲目对全算子精修是过度工程，对有拐点算子粗放则结论失真。

KO

用 comm/compute 比值圈定 ratio≥0.3（近拐点）的算子 × 区间，给后续算子建模优先级提供数据依据。范围：全常用 attention 算子集（MLA/MHA/GQA/MQA/DSA）× cp{1,2,4,8,16} × seq_len{128K–1M} × 带宽{100,200,400}GB/s × R{100,300,600}TFLOPS，共 900 格，相对比值（无绝对毫秒，无真机锚点）。

KT

用现成解析评估器（attention_flops 口径 + 组合法 pass-KV 公式）算每格 ratio = comm_time / compute_time，按 ratio 三分类：< 0.3 通信被掩盖（无拐点影响）、0.3–1 近拐点（精修有价值）、≥ 1 通信暴露。compute = $F_{\text{attn}}^{\text{每芯片}} / R$（稀疏 kv_len=topk、稠密 kv_len=S）；comm = $S \cdot c_{kv} \cdot (cp-1)/cp / \text{BW}$。

KA1 — MLA / GQA / MQA 无拐点，现有 matmul 近似已够

结论

MLA、GQA、MQA 三类在全网格内 comm/compute 比值均 < 0.1，无近拐点格子。通信被计算完全掩盖，完美重叠假设与真实重叠无差异。这三类算子的计算建模不需为 CP 精修——现有 matmul 近似足够，精修其向量/访存算子对 CP 结论影响近零。

数据

算子	max_ratio	掩盖格子数
MLA	0.010	144
GQA	0.086	144
MQA	0.011	144

@tbl-knee-noKnee 无拐点算子的比值分布（cp>1 格子）

MLA 的 c_kv 仅 576 元素/token（压缩 latent），MQA 仅 1 个 KV 头，GQA 8 个 KV 头——通信字节小；且三者计算稠密 ∝ $S^2$，大 S 区间计算压倒通信。

分析

稠密 attention 计算 ∝ $S^2$、通信 ∝ $S$，比值 ∝ $1/S$ 随 S 缩小。叠加小 c_kv（MLA 压缩、MQA/GQA 少 KV 头），realistic 区间通信占比 < 1%。完美重叠（max）与真实重叠在通信 << 计算时重合，精修建模无增益。这与既有 tracer-bullet 实测（MLA pass-KV 占 0.01–1%）一致。

KA2 — DSA 有拐点且不随 S 变，稀疏签名，优先精修

结论

DSA 在高 cp + 低带宽角落 comm/compute 比值达 0.618，出现 12 个近拐点格子。关键特征：比值不随 seq_len 变化（cp=16/BW100/R600 下 128K–1M 全为 0.618）——这是稀疏计算 ∝ $S \cdot \text{topk}$ 的签名。DSA 是后续计算算子建模的首要对象，拐点全 S 区间持续，scale-out（高 cp）时通信逼近暴露。

数据

DSA 近拐点格子（ratio≥0.3）集中在 cp=16、BW∈{100,200}、R∈{300,600}：

cp	seq_len	BW	R	ratio
16	128K–1M（全）	100	600	0.618
16	128K	100	300	0.309
16	128K	200	600	0.309

@tbl-knee-dsa DSA 近拐点格子（ratio 不随 S 变）

分析

DSA 稀疏使 kv_len = min(S, topk=2048)，计算 ∝ $S \cdot \text{topk}$（不再 $S^2$）。比值 = comm($S \cdot c_{kv}$) / compute($S \cdot \text{topk}$) 中 S 约掉 → 比值与 S 无关，拐点在整个 S 区间持续存在，不像稠密那样大 S 自动消失。高 cp 放大通信（pass-KV ∝ (cp-1)/cp）+ 低带宽，把比值推到 0.6。此处完美重叠假设的乐观偏差变得可观（ratio 0.6 时 max 与真实重叠差约 10–20% step 时间），精修 DSA 的计算建模 + 真 overlap（A2）对 CP 结论有实质影响。

KA3 — MHA 有拐点但集中在小 S 高 cp，稠密大 c_kv 签名

结论

MHA 在小 seq_len + 高 cp + 低带宽角落比值达 0.687，出现 5 个近拐点格子。特征：拐点集中在小 S（128K/256K），大 S 区间消失——稠密 ∝ $S^2$ 计算大 S 压倒通信的签名，叠加大 c_kv（32768 元素/token）。MHA 在小上下文 + scale-out 场景需精修，长上下文不需。

数据

MHA 近拐点格子集中在 cp∈{8,16}、小 S（128K/256K）、BW∈{100,200}：

cp	seq_len	BW	R	ratio
16	128K	100	600	0.687
16	128K	100	300	0.343
8	128K	100	600	0.320

@tbl-knee-mha MHA 近拐点格子（集中小 S）

分析

MHA c_kv 大（全 KV 头，32768 元素/token，是 MLA 的 57×），通信字节大；但计算稠密 ∝ $S^2$，所以比值 ∝ $c_{kv}/S$ 随 S 增大而缩小。结果拐点出现在小 S（计算还没被 $S^2$ 拉大）+ 高 cp（通信放大）+ 低带宽。与 DSA 的 S-无关签名相反：MHA 的拐点随 S 增大而消失。含义：MHA 的精修只在小上下文高并行场景有价值。

部署建议

优先级	算子	区间	行动
高	DSA	高 cp（≥16）全 S，拐点持续	首要精修：向量 roofline（softmax）+ topk 专用模型 + gather；配真 overlap（A2）
中	MHA	小 S（≤256K）+ 高 cp	次优精修，仅小上下文 scale-out 场景
低	MLA / GQA / MQA	全区间无拐点	现有 matmul 近似已够，不为 CP 精修

@tbl-knee-priority 后续算子建模优先级（数据驱动）

限制与未来工作

相对非绝对：比值为相对趋势，无真机锚点，不给绝对毫秒。拐点位置随 R 平移（R 大拐点提前，已扫 R 曲线族）。
比值未超 1：网格内 max_ratio 0.69，通信未完全暴露——拐点是「逼近」非「越过」。极端角落（BW<100 / cp>16 / 更小 topk）会越过，未扫。
comm 为解析 pass-KV ring：用组合法 allgather-ring 公式，未含真 c2c 拥塞（修错带宽域 A1 后可校验）。
代表性 config：每算子取单一代表配置（DeepSeek-V3.2 MLA/DSA、Llama GQA），未扫模型内 config 变化（如 topk、KV 头数）。

维护信息

最后更新：2026-06-21。数据 experiment_id=41（data/llm_evaluations.db knee_map_results）+ docs/validation/CP拐点地图/data/knee_map.csv。对应「G5-计算算子建模方法分层设计规格」顺序约束第一步。

KBG​

TASK​

KP​

KO​

KT​

KA1 — MLA / GQA / MQA 无拐点，现有 matmul 近似已够​

结论​

数据​

分析​

KA2 — DSA 有拐点且不随 S 变，稀疏签名，优先精修​

结论​

数据​

分析​

KA3 — MHA 有拐点但集中在小 S 高 cp，稠密大 c_kv 签名​

结论​

数据​

分析​

部署建议​

限制与未来工作​

维护信息​

KBG