上下文并行 (CP) 收益评估实验设计
量化 MLA 模型在 512K–1M 下 CP 的容量收益与 decode 代价;prefill 已验证无带宽墙
日期:2026-06-17 状态:实验设计草案,待审定后冻结 + 跑数据 Spec 依据:G5 上下文并行建模设计规格(CP 通信量 / 容量分摊建模正确性由该 spec 验收测试闭环,本研究不重复) 下游消费方:长上下文 LLM 部署方案搜索设计规格(容量墙 / 带宽墙推理需要本研究的收益曲线与边界数据)
名词定义
CP 建模自有概念(pass-KV / pass-Q 等)以 CP spec 的名词定义为准,本文只列汇报所需。
| 名词 | 含义 |
|---|---|
| CP / cp | 上下文并行:沿序列把单条长序列切到 cp 个芯片,每芯片持 $S/\text{cp}$ 个 token 的中间状态 |
| TTFT / TPOT | 首 token 延迟(prefill 总时长)/ 每输出 token 延迟(decode 单步时长) |
| pass-KV / pass-Q | prefill 阶段 KV 在芯片环上轮转;decode 阶段 query 分发到各芯片算部分注意力再归约 |
| 容量墙 / 带宽墙 | 单芯片显存装不下 KV 的下限约束 / 通信无法被计算掩盖后吃掉收益的上限约束 |
| 掩盖拐点 | pass-KV 通信从"被计算掩盖"翻转为"暴露在关键路径"的临界点 |
| scaling 效率 | $\eta(\text{cp}) = T(\text{cp}{=}1) / (\text{cp} \cdot T(\text{cp}))$,理想线性加速时为 1 |
| 组合法 | 把"计算时延"与"芯片间通信时延"分别求出再拼合的评估方法,见 评估方法 节 |
| MLA / $c_{\text{kv}}$ | DeepSeek 压缩注意力结构 / 每 token 每层 KV 字节数,MLA 压缩后比 MHA 小一个数量级以上 |
| $R$ | 单芯片有效算力,本研究作参数扫描,见 评估方法 节 |
@tbl-cpeval-terms 名词定义
研究背景与定位
本研究量化 MLA 模型在长上下文(聚焦 512K–1M)下 CP 的容量收益与 decode 代价,产出最小可行 cp 推荐表与 TPOT 代价曲线,作为长上下文部署方案搜索的输入数据。 prefill 侧经 probe 实测与业界数据确认无带宽墙(见 评估方法 节),不作主产出。
CP 的建模正确性(通信量、容量分摊、退化一致性)已由 CP spec 的验收测试闭环,本研究不重复。本研究只回答"收益多大、代价多大"——这部分随 $S$ / cp / CP 组摆放变化,单元测试覆盖不了,要靠扫描数据呈现。
当前缺两块数据,部署选型据此无法量化:
- 容量收益无数据:MLA 真实尺寸下,512K–1M 各点每芯片 KV 占用对应的最小可行 cp 是多少,未量化——这是 CP 对 MLA 的首要收益。
- decode 代价无数据:cp 在 decode 侧只解容量、不省计算,且 pass-Q 延迟受 CP 组摆放影响,TPOT 随 cp 上升的幅度未量化,部署选型无法在"容量可行"与"TPOT 退化"之间权衡。
prefill 侧(加速比、带宽墙)已基本回答:probe 实测 + Meta 实证显示 MLA prefill 通信被计算掩盖、无带宽墙、加速比≈cp,详见 评估方法 节。
评估方法
组合法
把评估拆成几块,每块用最合适的工具单独求,再拼合:
| 块 | 怎么求 |
|---|---|
| prefill 片内计算时延 | 按计算量与算力解析,算力作参数扫描 |
| prefill 跨芯片 pass-KV 时延 | 集合通信仿真(真实芯片间互联 c2c) |
| decode KV 读取 + 部分注意力 | 芯片内访存仿真 |
| decode pass-Q 时延 | 集合通信仿真(真实 c2c) |
| 每芯片 KV 占用 | 纯字节核算 |
@tbl-cpeval-method 组合法的分块与各自工具
Prefill:加速来自计算按 cp 均分
cp 沿序列切分,每芯片处理 $S/\text{cp}$ 段 query、配合环上轮转过来的全量 KV 算注意力。每芯片计算时延:
$$\begin{equation} T_{\text{comp}}(S, \text{cp}, R) = \frac{2 \cdot B \cdot S^2 \cdot (D_{qk} + D_v)}{\text{cp} \cdot R} \label{eq:cpeval-comp} \end{equation}$$计算量随 cp 反比下降,这是 prefill 加速的来源(加速比 ≈ cp)。算力 $R$ 仅作后处理参数。
跨芯片 pass-KV 时延用集合通信仿真测出,走真实芯片间互联,每芯片轮转的 KV 字节为 $\frac{\text{cp}-1}{\text{cp}} \cdot S \cdot c_{\text{kv}}$(与 CP spec 通信量口径一致)。
prefill 时长取两者拼合——计算与通信重叠时,关键路径是较慢的一方:
$$\begin{equation} T_{\text{prefill}} = \max\big(T_{\text{comp}},\ T_{\text{passkv}}\big) \label{eq:cpeval-prefill} \end{equation}$$probe 结论:MLA 真实参数下 pass-KV 通信只占 attention 计算的 0.01%–1%(128K 实测 + 解析外推,差距随 $S$ 增大),通信恒被计算掩盖、无带宽墙,加速比 ≈ cp。要逼出带宽墙需带宽 <≈1 GB/s、大 KV(MHA)或极端 cp,均在现实区间外。故 prefill 收为这一条结论,不作主产出。
Decode:cp 只解容量、不省计算
decode 沿 KV 切分,每芯片持 $S/\text{cp}$ 的 KV,query 分发到各芯片算部分注意力再归约。
- KV 读取 + 部分注意力:用芯片内访存仿真,decode 单步访存主导、落在片内显存,模型可信。
- pass-Q 时延:query 分发与结果归约消息小、延迟主导,用集合通信仿真走真实 c2c。因延迟主导,pass-Q 对 CP 组摆放(板内 / 跨板 / 跨机的每跳延迟)敏感,是 decode 侧重点。
decode 侧每芯片仍要算全部 query 对本地 KV 的部分注意力,cp 不省计算、只摊 KV 内存,故 TPOT 随 cp 预期非降——本研究量化上升幅度。访存主导是 decode 可信的前提:大 cp、小 $S$ 时每芯片 KV 读取量 $S/\text{cp}$ 变小、计算占比上升,该角落 TPOT 可信度下降,需在结果中标注(见 限制与待校准项 节)。
容量墙:每芯片 KV 按 cp 摊薄
每芯片 KV 占用为纯字节,按全模型层数 $L$ 折算:
$$\begin{equation} \text{KV}_{\text{per-chip}}(S, \text{cp}) = \frac{S}{\text{cp}} \cdot c_{\text{kv}} \cdot L \label{eq:cpeval-capacity} \end{equation}$$这一项只随 $S$ 与 cp 变化,与芯片显存大小无关。是否"装得下"由它与每芯片可用显存预算比较得出——可用预算 = 单芯片显存 − 权重(随 TP 分摊)− activation。可用预算作叠加参数(取代表性档位),不进评估网格;最小可行 cp = 让每芯片 KV 落进预算的最小 cp。给部署选型按序列长度查表。
扫描维度
| 维度 | 取值 | 作用 |
|---|---|---|
| 序列长度 $S$ | 512K, 1M 主;128K, 256K 对照 | 横轴;CP 现实区间在 512K–1M |
| cp 并行度 | {1, 2, 4, 8, 16} | 对比曲线;cp=1 为基准 |
| CP 组摆放 | 板内 / 跨板 / 跨机 | 替代扁平带宽;每 tier 自带带宽 + 每跳延迟 |
| 推理阶段 | prefill(一句结论)/ decode(重点) | prefill 已答、decode 为主 |
| TP 度数 | {1, 2, 4, 8}(仅 decode,与摆放联动) | 竞争强度真轴;同 tier 才竞争 |
| 可用显存预算 | 代表性档位 | 后处理叠加(仅容量墙);定最小可行 cp |
| 算力 $R$ | 标称 ×0.5(sanity 单值) | 计算 sanity;无 prefill 拐点故不作族 |
@tbl-cpeval-grid 扫描维度
关于扫描轴的说明:CP 组摆放替代原"互联带宽"扁平档——真实链路分层(板内 c2c / 板间 b2b / 机间 r2r),带宽与每跳延迟随摆放走,拍平成单一带宽数会掩盖摆放影响(对 decode 尤甚)。算力 $R$ 不作扫描族:prefill 无拐点(probe 已证),$R$ 在加速比中约掉,仅留单值供计算 sanity。TP 度数只在 decode 评,且仅当 TP 与 CP 同 tier 共享链路时才产生竞争(业界默认 TP 占快 tier、CP 占慢 tier,不共享)。
cp 范围依据业界设置:CP 并行度业界以 2 的幂为主——训练框架 Megatron-LM 典型档为 {1, 2, 4, 8}(NVIDIA Megatron-Core 文档);推理侧 Meta 将 CP 与 TP 组合扩到 128 GPU / 16 节点跑 1M 上下文(Llama3-405B,1M prefill 77 s、93% 并行效率,arXiv:2411.01783);Llama3 训练用 all-gather 式 CP 把上下文从 8K 扩到 128K(ISCA 2025)。容量是首要约束、TTFT 次之,故现实区间集中在 cp 2–8,极端长(1M)才上 16。本研究 {1, 2, 4, 8, 16} 覆盖该区间;MLA 的 KV 比 MHA 小约一个数量级、容量墙更晚到,实际所需 cp 偏低端,cp=16 更多作压力点。
生产部署现状(印证 MLA 少用 CP):DeepSeek-V3 公开部署方案中,prefill 注意力用 TP4 + 序列并行(SP)+ DP8、MoE 用 EP32,decode 用 EP144 + DP144,全程未用 CP(arXiv:2412.19437,LMSYS 复现);GLM-4.5(131K,GQA-MoE)用 TP / PP / EP / SP,亦未见 CP。说明 128K 级 MLA / MoE 模型靠 MLA 压缩 + TP-SP 即可,CP 主要用于超长(≥512K–1M)推理与长上下文训练。本研究的 CP 收益主要落在 512K–1M 区间;128K 区间 CP 可能非必需——这本身是给部署的结论。
模型锚定 DeepSeek-V3-671B 真实 MLA 参数(计算 / 通信比例与部署一致是结论可外推的前提):
| 参数 | 取值 |
|---|---|
| hidden / heads | 7168 / 128 |
| q_lora / kv_lora rank | 1536 / 512 |
| $c_{\text{kv}}$(BF16,含 K+V) | 1152 B/token/层 |
| 层数 $L$ | 61 |
| batch / dtype | 1 / BF16 |
| 芯片 | SG2262 |
@tbl-cpeval-fixed-params 固定参数(锚定 DeepSeek-V3-671B MLA)
实验产出
结果逐点增量入库,中途中断不丢数据。重心是容量墙(解析、即时)与 decode(单芯片访存 + pass-Q 通信仿真,含摆放场景);prefill 已由 probe 完成,仅补 512K–1M 几个确认点。
指标
| 指标 | 回答 | 可信度 |
|---|---|---|
| 每芯片 KV 占用 → 最小可行 cp | 容量墙查表(下游部署选型消费) | 可信(纯字节核算) |
| TPOT vs cp(按摆放) | decode 侧 pass-Q + 计算的代价 | 基本可信(访存仿真;大 cp / 小 $S$ 角落见限制) |
| prefill 加速比 | 确认 ≈ cp、无带宽墙 | 已验证(probe,非主产出) |
@tbl-cpeval-metrics 测量指标与可信度
图表
| 图 | 回答 |
|---|---|
| 容量墙查表 | 给定显存预算下,每序列长度的最小可行 cp |
| decode 代价曲线 | TPOT 随 cp 上升幅度(按 CP 组摆放分面) |
| decode 竞争图 | TP 度数对 decode TPOT 的影响(同 tier 摆放下) |
| prefill 确认图 | 加速比 ≈ cp、通信/计算比值(一张,证无带宽墙) |
@tbl-cpeval-display 图表产出(按可信度排序)
自洽校验
- 暴露区间(通信 > 计算)内加速比必须 $<$ cp 且随暴露增大单调偏离——掩盖区间内加速比恒等于 cp 是建模恒等式,不作断言。
- pass-KV 通信量与 CP spec 解析口径核对,严格相等。
- decode 每芯片访存时长与字节量 / 带宽下界一致(cp=1 严格相等)。
- cp=1 与无 CP 路径结果一致(退化基准)。
外部对标:Meta CP 论文
Meta(arXiv:2411.01783,Context Parallelism for Scalable Million-Token Inference)报告 H100 集群 1M 上下文的 pass-KV / pass-Q 实测,是双形态的出处,也是本研究唯一外部锚点。
对标只对相对量、不对绝对值:
- 可对标(定性分工):prefill 有计算收益、decode 无计算收益——跨模型不变。
- 印证本研究发现:Meta 实测 RDMA 与 TCP(中低跨节点带宽)对长上下文 prefill 都近线性扩展,即带宽不是 prefill 瓶颈——独立印证本研究"MLA prefill 在现实带宽区间无带宽墙"。Meta 用大 KV 的 Llama 尚且如此,KV 小一个数量级的 MLA 余量更大。
- 不可对标:绝对 TTFT / TPOT,以及曲线线性度——Meta 用 Llama(MHA/GQA)、本研究用 MLA,$c_{\text{kv}}$ 小约一个数量级、曲线必然更线性,二者"都接近线性"是各自配置的独立结果,不构成相互验证。
- 用途:佐证定性分工 + 带宽非瓶颈,不作通过 / 失败判据。
限制与待校准项
- 只给相对趋势,不给绝对 TTFT:本研究产出最小可行 cp / TPOT 代价 / prefill 加速比(相对量),不产出毫秒级绝对 TTFT,绝对值不在本研究范围。
- prefill 无带宽墙已确认:probe 实测通信占计算 ≤1%,$\max$ 近似精度 <1%,prefill 加速比 ≈ cp 为可靠结论;唯一不确定来自有效算力 $R$,但 $R$ 在加速比中约掉。
- prefill 按单层外推:prefill 时长按单层 attention 仿真 × 层数,外推线性性需在一个点位(如 $S{=}512\text{K}$、cp$=8$)验证 per-layer 偏差后采用;FFN / MoE 层与层间效应不在 attention 段口径内。
- decode 访存主导有边界:decode 主体(KV 读取)是芯片内访存仿真,比 prefill 解析更接近真值;但大 cp、小 $S$ 时计算占比上升,这些格子 TPOT 含未标定计算成分,结果中标注"仅供参考"。
- CP 组摆放为离散场景:板内 / 跨板 / 跨机三档代表性摆放,非连续;具体集群的混合摆放需按实际拓扑重跑。
- EP 流量竞争未进网格:只验 TP 竞争;MoE 下 EP 与 pass-KV 的三方竞争列为后续工作。
- 单序列、BF16 口径:多序列并发竞争、FP8 KV 未覆盖;FP8 使掩盖更易,本研究边界偏保守侧。