上下文并行 (CP) 收益评估实验设计

量化 MLA 模型在 512K–1M 下 CP 的容量收益与 decode 代价；prefill 已验证无带宽墙

日期：2026-06-17 状态：实验设计草案，待审定后冻结 + 跑数据 Spec 依据：G5 上下文并行建模设计规格（CP 通信量 / 容量分摊建模正确性由该 spec 验收测试闭环，本研究不重复） 下游消费方：长上下文 LLM 部署方案搜索设计规格（容量墙 / 带宽墙推理需要本研究的收益曲线与边界数据）

名词定义

CP 建模自有概念（pass-KV / pass-Q 等）以 CP spec 的名词定义为准，本文只列汇报所需。

名词	含义
CP / cp	上下文并行：沿序列把单条长序列切到 cp 个芯片，每芯片持 $S/\text{cp}$ 个 token 的中间状态
TTFT / TPOT	首 token 延迟（prefill 总时长）/ 每输出 token 延迟（decode 单步时长）
pass-KV / pass-Q	prefill 阶段 KV 在芯片环上轮转；decode 阶段 query 分发到各芯片算部分注意力再归约
容量墙 / 带宽墙	单芯片显存装不下 KV 的下限约束 / 通信无法被计算掩盖后吃掉收益的上限约束
掩盖拐点	pass-KV 通信从"被计算掩盖"翻转为"暴露在关键路径"的临界点
scaling 效率	$\eta(\text{cp}) = T(\text{cp}{=}1) / (\text{cp} \cdot T(\text{cp}))$，理想线性加速时为 1
组合法	把"计算时延"与"芯片间通信时延"分别求出再拼合的评估方法，见评估方法节
MLA / $c_{\text{kv}}$	DeepSeek 压缩注意力结构 / 每 token 每层 KV 字节数，MLA 压缩后比 MHA 小一个数量级以上
$R$	单芯片有效算力，本研究作参数扫描，见评估方法节

@tbl-cpeval-terms 名词定义

研究背景与定位

本研究量化 MLA 模型在长上下文（聚焦 512K–1M）下 CP 的容量收益与 decode 代价，产出最小可行 cp 推荐表与 TPOT 代价曲线，作为长上下文部署方案搜索的输入数据。 prefill 侧经 probe 实测与业界数据确认无带宽墙（见评估方法节），不作主产出。

CP 的建模正确性（通信量、容量分摊、退化一致性）已由 CP spec 的验收测试闭环，本研究不重复。本研究只回答"收益多大、代价多大"——这部分随 $S$ / cp / CP 组摆放变化，单元测试覆盖不了，要靠扫描数据呈现。

当前缺两块数据，部署选型据此无法量化：

容量收益无数据：MLA 真实尺寸下，512K–1M 各点每芯片 KV 占用对应的最小可行 cp 是多少，未量化——这是 CP 对 MLA 的首要收益。
decode 代价无数据：cp 在 decode 侧只解容量、不省计算，且 pass-Q 延迟受 CP 组摆放影响，TPOT 随 cp 上升的幅度未量化，部署选型无法在"容量可行"与"TPOT 退化"之间权衡。

prefill 侧（加速比、带宽墙）已基本回答：probe 实测 + Meta 实证显示 MLA prefill 通信被计算掩盖、无带宽墙、加速比≈cp，详见评估方法节。

评估方法

组合法

把评估拆成几块，每块用最合适的工具单独求，再拼合：

块	怎么求
prefill 片内计算时延	按计算量与算力解析，算力作参数扫描
prefill 跨芯片 pass-KV 时延	集合通信仿真（真实芯片间互联 c2c）
decode KV 读取 + 部分注意力	芯片内访存仿真
decode pass-Q 时延	集合通信仿真（真实 c2c）
每芯片 KV 占用	纯字节核算

@tbl-cpeval-method 组合法的分块与各自工具

Prefill：加速来自计算按 cp 均分

cp 沿序列切分，每芯片处理 $S/\text{cp}$ 段 query、配合环上轮转过来的全量 KV 算注意力。每芯片计算时延：

$$\begin{equation} T_{\text{comp}}(S, \text{cp}, R) = \frac{2 \cdot B \cdot S^2 \cdot (D_{qk} + D_v)}{\text{cp} \cdot R} \label{eq:cpeval-comp} \end{equation}$$

计算量随 cp 反比下降，这是 prefill 加速的来源（加速比 ≈ cp）。算力 $R$ 仅作后处理参数。

跨芯片 pass-KV 时延用集合通信仿真测出，走真实芯片间互联，每芯片轮转的 KV 字节为 $\frac{\text{cp}-1}{\text{cp}} \cdot S \cdot c_{\text{kv}}$（与 CP spec 通信量口径一致）。

prefill 时长取两者拼合——计算与通信重叠时，关键路径是较慢的一方：

$$\begin{equation} T_{\text{prefill}} = \max\big(T_{\text{comp}},\ T_{\text{passkv}}\big) \label{eq:cpeval-prefill} \end{equation}$$

probe 结论：MLA 真实参数下 pass-KV 通信只占 attention 计算的 0.01%–1%（128K 实测 + 解析外推，差距随 $S$ 增大），通信恒被计算掩盖、无带宽墙，加速比 ≈ cp。要逼出带宽墙需带宽 <≈1 GB/s、大 KV（MHA）或极端 cp，均在现实区间外。故 prefill 收为这一条结论，不作主产出。

Decode：cp 只解容量、不省计算

decode 沿 KV 切分，每芯片持 $S/\text{cp}$ 的 KV，query 分发到各芯片算部分注意力再归约。

KV 读取 + 部分注意力：用芯片内访存仿真，decode 单步访存主导、落在片内显存，模型可信。
pass-Q 时延：query 分发与结果归约消息小、延迟主导，用集合通信仿真走真实 c2c。因延迟主导，pass-Q 对 CP 组摆放（板内 / 跨板 / 跨机的每跳延迟）敏感，是 decode 侧重点。

decode 侧每芯片仍要算全部 query 对本地 KV 的部分注意力，cp 不省计算、只摊 KV 内存，故 TPOT 随 cp 预期非降——本研究量化上升幅度。访存主导是 decode 可信的前提：大 cp、小 $S$ 时每芯片 KV 读取量 $S/\text{cp}$ 变小、计算占比上升，该角落 TPOT 可信度下降，需在结果中标注（见限制与待校准项节）。

容量墙：每芯片 KV 按 cp 摊薄

每芯片 KV 占用为纯字节，按全模型层数 $L$ 折算：

$$\begin{equation} \text{KV}_{\text{per-chip}}(S, \text{cp}) = \frac{S}{\text{cp}} \cdot c_{\text{kv}} \cdot L \label{eq:cpeval-capacity} \end{equation}$$

这一项只随 $S$ 与 cp 变化，与芯片显存大小无关。是否"装得下"由它与每芯片可用显存预算比较得出——可用预算 = 单芯片显存 − 权重（随 TP 分摊）− activation。可用预算作叠加参数（取代表性档位），不进评估网格；最小可行 cp = 让每芯片 KV 落进预算的最小 cp。给部署选型按序列长度查表。

扫描维度

维度	取值	作用
序列长度 $S$	512K, 1M 主；128K, 256K 对照	横轴；CP 现实区间在 512K–1M
cp 并行度	{1, 2, 4, 8, 16}	对比曲线；cp=1 为基准
CP 组摆放	板内 / 跨板 / 跨机	替代扁平带宽；每 tier 自带带宽 + 每跳延迟
推理阶段	prefill（一句结论）/ decode（重点）	prefill 已答、decode 为主
TP 度数	{1, 2, 4, 8}（仅 decode，与摆放联动）	竞争强度真轴；同 tier 才竞争
可用显存预算	代表性档位	后处理叠加（仅容量墙）；定最小可行 cp
算力 $R$	标称 ×0.5（sanity 单值）	计算 sanity；无 prefill 拐点故不作族

@tbl-cpeval-grid 扫描维度

关于扫描轴的说明：CP 组摆放替代原"互联带宽"扁平档——真实链路分层（板内 c2c / 板间 b2b / 机间 r2r），带宽与每跳延迟随摆放走，拍平成单一带宽数会掩盖摆放影响（对 decode 尤甚）。算力 $R$ 不作扫描族：prefill 无拐点（probe 已证），$R$ 在加速比中约掉，仅留单值供计算 sanity。TP 度数只在 decode 评，且仅当 TP 与 CP 同 tier 共享链路时才产生竞争（业界默认 TP 占快 tier、CP 占慢 tier，不共享）。

cp 范围依据业界设置：CP 并行度业界以 2 的幂为主——训练框架 Megatron-LM 典型档为 {1, 2, 4, 8}（NVIDIA Megatron-Core 文档）；推理侧 Meta 将 CP 与 TP 组合扩到 128 GPU / 16 节点跑 1M 上下文（Llama3-405B，1M prefill 77 s、93% 并行效率，arXiv:2411.01783）；Llama3 训练用 all-gather 式 CP 把上下文从 8K 扩到 128K（ISCA 2025）。容量是首要约束、TTFT 次之，故现实区间集中在 cp 2–8，极端长（1M）才上 16。本研究 {1, 2, 4, 8, 16} 覆盖该区间；MLA 的 KV 比 MHA 小约一个数量级、容量墙更晚到，实际所需 cp 偏低端，cp=16 更多作压力点。

生产部署现状（印证 MLA 少用 CP）：DeepSeek-V3 公开部署方案中，prefill 注意力用 TP4 + 序列并行（SP）+ DP8、MoE 用 EP32，decode 用 EP144 + DP144，全程未用 CP（arXiv:2412.19437，LMSYS 复现）；GLM-4.5（131K，GQA-MoE）用 TP / PP / EP / SP，亦未见 CP。说明 128K 级 MLA / MoE 模型靠 MLA 压缩 + TP-SP 即可，CP 主要用于超长（≥512K–1M）推理与长上下文训练。本研究的 CP 收益主要落在 512K–1M 区间；128K 区间 CP 可能非必需——这本身是给部署的结论。

模型锚定 DeepSeek-V3-671B 真实 MLA 参数（计算 / 通信比例与部署一致是结论可外推的前提）：

参数	取值
hidden / heads	7168 / 128
q_lora / kv_lora rank	1536 / 512
$c_{\text{kv}}$（BF16，含 K+V）	1152 B/token/层
层数 $L$	61
batch / dtype	1 / BF16
芯片	SG2262

@tbl-cpeval-fixed-params 固定参数（锚定 DeepSeek-V3-671B MLA）

实验产出

结果逐点增量入库，中途中断不丢数据。重心是容量墙（解析、即时）与 decode（单芯片访存 + pass-Q 通信仿真，含摆放场景）；prefill 已由 probe 完成，仅补 512K–1M 几个确认点。

指标

指标	回答	可信度
每芯片 KV 占用 → 最小可行 cp	容量墙查表（下游部署选型消费）	可信（纯字节核算）
TPOT vs cp（按摆放）	decode 侧 pass-Q + 计算的代价	基本可信（访存仿真；大 cp / 小 $S$ 角落见限制）
prefill 加速比	确认 ≈ cp、无带宽墙	已验证（probe，非主产出）

@tbl-cpeval-metrics 测量指标与可信度

图表

图	回答
容量墙查表	给定显存预算下，每序列长度的最小可行 cp
decode 代价曲线	TPOT 随 cp 上升幅度（按 CP 组摆放分面）
decode 竞争图	TP 度数对 decode TPOT 的影响（同 tier 摆放下）
prefill 确认图	加速比 ≈ cp、通信/计算比值（一张，证无带宽墙）

@tbl-cpeval-display 图表产出（按可信度排序）

自洽校验

暴露区间（通信 > 计算）内加速比必须 $<$ cp 且随暴露增大单调偏离——掩盖区间内加速比恒等于 cp 是建模恒等式，不作断言。
pass-KV 通信量与 CP spec 解析口径核对，严格相等。
decode 每芯片访存时长与字节量 / 带宽下界一致（cp=1 严格相等）。
cp=1 与无 CP 路径结果一致（退化基准）。

外部对标：Meta CP 论文

Meta（arXiv:2411.01783，Context Parallelism for Scalable Million-Token Inference）报告 H100 集群 1M 上下文的 pass-KV / pass-Q 实测，是双形态的出处，也是本研究唯一外部锚点。

对标只对相对量、不对绝对值：

可对标（定性分工）：prefill 有计算收益、decode 无计算收益——跨模型不变。
印证本研究发现：Meta 实测 RDMA 与 TCP（中低跨节点带宽）对长上下文 prefill 都近线性扩展，即带宽不是 prefill 瓶颈——独立印证本研究"MLA prefill 在现实带宽区间无带宽墙"。Meta 用大 KV 的 Llama 尚且如此，KV 小一个数量级的 MLA 余量更大。
不可对标：绝对 TTFT / TPOT，以及曲线线性度——Meta 用 Llama（MHA/GQA）、本研究用 MLA，$c_{\text{kv}}$ 小约一个数量级、曲线必然更线性，二者"都接近线性"是各自配置的独立结果，不构成相互验证。
用途：佐证定性分工 + 带宽非瓶颈，不作通过 / 失败判据。

限制与待校准项

只给相对趋势，不给绝对 TTFT：本研究产出最小可行 cp / TPOT 代价 / prefill 加速比（相对量），不产出毫秒级绝对 TTFT，绝对值不在本研究范围。
prefill 无带宽墙已确认：probe 实测通信占计算 ≤1%，$\max$ 近似精度 <1%，prefill 加速比 ≈ cp 为可靠结论；唯一不确定来自有效算力 $R$，但 $R$ 在加速比中约掉。
prefill 按单层外推：prefill 时长按单层 attention 仿真 × 层数，外推线性性需在一个点位（如 $S{=}512\text{K}$、cp$=8$）验证 per-layer 偏差后采用；FFN / MoE 层与层间效应不在 attention 段口径内。
decode 访存主导有边界：decode 主体（KV 读取）是芯片内访存仿真，比 prefill 解析更接近真值；但大 cp、小 $S$ 时计算占比上升，这些格子 TPOT 含未标定计算成分，结果中标注"仅供参考"。
CP 组摆放为离散场景：板内 / 跨板 / 跨机三档代表性摆放，非连续；具体集群的混合摆放需按实际拓扑重跑。
EP 流量竞争未进网格：只验 TP 竞争；MoE 下 EP 与 pass-KV 的三方竞争列为后续工作。
单序列、BF16 口径：多序列并发竞争、FP8 KV 未覆盖；FP8 使掩盖更易，本研究边界偏保守侧。

名词定义​

研究背景与定位​

评估方法​

组合法​

Prefill：加速来自计算按 cp 均分​

Decode：cp 只解容量、不省计算​

容量墙：每芯片 KV 按 cp 摊薄​

扫描维度​

实验产出​

指标​

图表​

自洽校验​

外部对标：Meta CP 论文​

限制与待校准项​