跳到主要内容

上下文并行 (CP) 收益评估实验设计

量化 MLA 模型在 512K–1M 下 CP 的容量收益与 decode 代价;prefill 已验证无带宽墙

日期:2026-06-17 状态:实验设计草案,待审定后冻结 + 跑数据 Spec 依据G5 上下文并行建模设计规格(CP 通信量 / 容量分摊建模正确性由该 spec 验收测试闭环,本研究不重复) 下游消费方长上下文 LLM 部署方案搜索设计规格(容量墙 / 带宽墙推理需要本研究的收益曲线与边界数据)

名词定义

CP 建模自有概念(pass-KV / pass-Q 等)以 CP spec 的名词定义为准,本文只列汇报所需。

名词含义
CP / cp上下文并行:沿序列把单条长序列切到 cp 个芯片,每芯片持 $S/\text{cp}$ 个 token 的中间状态
TTFT / TPOT首 token 延迟(prefill 总时长)/ 每输出 token 延迟(decode 单步时长)
pass-KV / pass-Qprefill 阶段 KV 在芯片环上轮转;decode 阶段 query 分发到各芯片算部分注意力再归约
容量墙 / 带宽墙单芯片显存装不下 KV 的下限约束 / 通信无法被计算掩盖后吃掉收益的上限约束
掩盖拐点pass-KV 通信从"被计算掩盖"翻转为"暴露在关键路径"的临界点
scaling 效率$\eta(\text{cp}) = T(\text{cp}{=}1) / (\text{cp} \cdot T(\text{cp}))$,理想线性加速时为 1
组合法把"计算时延"与"芯片间通信时延"分别求出再拼合的评估方法,见 评估方法 节
MLA / $c_{\text{kv}}$DeepSeek 压缩注意力结构 / 每 token 每层 KV 字节数,MLA 压缩后比 MHA 小一个数量级以上
$R$单芯片有效算力,本研究作参数扫描,见 评估方法 节

@tbl-cpeval-terms 名词定义

研究背景与定位

本研究量化 MLA 模型在长上下文(聚焦 512K–1M)下 CP 的容量收益与 decode 代价,产出最小可行 cp 推荐表与 TPOT 代价曲线,作为长上下文部署方案搜索的输入数据。 prefill 侧经 probe 实测与业界数据确认无带宽墙(见 评估方法 节),不作主产出。

CP 的建模正确性(通信量、容量分摊、退化一致性)已由 CP spec 的验收测试闭环,本研究不重复。本研究只回答"收益多大、代价多大"——这部分随 $S$ / cp / CP 组摆放变化,单元测试覆盖不了,要靠扫描数据呈现。

当前缺两块数据,部署选型据此无法量化:

  • 容量收益无数据:MLA 真实尺寸下,512K–1M 各点每芯片 KV 占用对应的最小可行 cp 是多少,未量化——这是 CP 对 MLA 的首要收益。
  • decode 代价无数据:cp 在 decode 侧只解容量、不省计算,且 pass-Q 延迟受 CP 组摆放影响,TPOT 随 cp 上升的幅度未量化,部署选型无法在"容量可行"与"TPOT 退化"之间权衡。

prefill 侧(加速比、带宽墙)已基本回答:probe 实测 + Meta 实证显示 MLA prefill 通信被计算掩盖、无带宽墙、加速比≈cp,详见 评估方法 节。

评估方法

组合法

把评估拆成几块,每块用最合适的工具单独求,再拼合:

怎么求
prefill 片内计算时延按计算量与算力解析,算力作参数扫描
prefill 跨芯片 pass-KV 时延集合通信仿真(真实芯片间互联 c2c)
decode KV 读取 + 部分注意力芯片内访存仿真
decode pass-Q 时延集合通信仿真(真实 c2c)
每芯片 KV 占用纯字节核算

@tbl-cpeval-method 组合法的分块与各自工具

Prefill:加速来自计算按 cp 均分

cp 沿序列切分,每芯片处理 $S/\text{cp}$ 段 query、配合环上轮转过来的全量 KV 算注意力。每芯片计算时延:

$$\begin{equation} T_{\text{comp}}(S, \text{cp}, R) = \frac{2 \cdot B \cdot S^2 \cdot (D_{qk} + D_v)}{\text{cp} \cdot R} \label{eq:cpeval-comp} \end{equation}$$

计算量随 cp 反比下降,这是 prefill 加速的来源(加速比 ≈ cp)。算力 $R$ 仅作后处理参数。

跨芯片 pass-KV 时延用集合通信仿真测出,走真实芯片间互联,每芯片轮转的 KV 字节为 $\frac{\text{cp}-1}{\text{cp}} \cdot S \cdot c_{\text{kv}}$(与 CP spec 通信量口径一致)。

prefill 时长取两者拼合——计算与通信重叠时,关键路径是较慢的一方:

$$\begin{equation} T_{\text{prefill}} = \max\big(T_{\text{comp}},\ T_{\text{passkv}}\big) \label{eq:cpeval-prefill} \end{equation}$$

probe 结论:MLA 真实参数下 pass-KV 通信只占 attention 计算的 0.01%–1%(128K 实测 + 解析外推,差距随 $S$ 增大),通信恒被计算掩盖、无带宽墙,加速比 ≈ cp。要逼出带宽墙需带宽 <≈1 GB/s、大 KV(MHA)或极端 cp,均在现实区间外。故 prefill 收为这一条结论,不作主产出。

Decode:cp 只解容量、不省计算

decode 沿 KV 切分,每芯片持 $S/\text{cp}$ 的 KV,query 分发到各芯片算部分注意力再归约。

  • KV 读取 + 部分注意力:用芯片内访存仿真,decode 单步访存主导、落在片内显存,模型可信。
  • pass-Q 时延:query 分发与结果归约消息小、延迟主导,用集合通信仿真走真实 c2c。因延迟主导,pass-Q 对 CP 组摆放(板内 / 跨板 / 跨机的每跳延迟)敏感,是 decode 侧重点。

decode 侧每芯片仍要算全部 query 对本地 KV 的部分注意力,cp 不省计算、只摊 KV 内存,故 TPOT 随 cp 预期非降——本研究量化上升幅度。访存主导是 decode 可信的前提:大 cp、小 $S$ 时每芯片 KV 读取量 $S/\text{cp}$ 变小、计算占比上升,该角落 TPOT 可信度下降,需在结果中标注(见 限制与待校准项 节)。

容量墙:每芯片 KV 按 cp 摊薄

每芯片 KV 占用为纯字节,按全模型层数 $L$ 折算:

$$\begin{equation} \text{KV}_{\text{per-chip}}(S, \text{cp}) = \frac{S}{\text{cp}} \cdot c_{\text{kv}} \cdot L \label{eq:cpeval-capacity} \end{equation}$$

这一项只随 $S$ 与 cp 变化,与芯片显存大小无关。是否"装得下"由它与每芯片可用显存预算比较得出——可用预算 = 单芯片显存 − 权重(随 TP 分摊)− activation。可用预算作叠加参数(取代表性档位),不进评估网格;最小可行 cp = 让每芯片 KV 落进预算的最小 cp。给部署选型按序列长度查表。

扫描维度

维度取值作用
序列长度 $S$512K, 1M 主;128K, 256K 对照横轴;CP 现实区间在 512K–1M
cp 并行度{1, 2, 4, 8, 16}对比曲线;cp=1 为基准
CP 组摆放板内 / 跨板 / 跨机替代扁平带宽;每 tier 自带带宽 + 每跳延迟
推理阶段prefill(一句结论)/ decode(重点)prefill 已答、decode 为主
TP 度数{1, 2, 4, 8}(仅 decode,与摆放联动)竞争强度真轴;同 tier 才竞争
可用显存预算代表性档位后处理叠加(仅容量墙);定最小可行 cp
算力 $R$标称 ×0.5(sanity 单值)计算 sanity;无 prefill 拐点故不作族

@tbl-cpeval-grid 扫描维度

关于扫描轴的说明:CP 组摆放替代原"互联带宽"扁平档——真实链路分层(板内 c2c / 板间 b2b / 机间 r2r),带宽与每跳延迟随摆放走,拍平成单一带宽数会掩盖摆放影响(对 decode 尤甚)。算力 $R$ 不作扫描族:prefill 无拐点(probe 已证),$R$ 在加速比中约掉,仅留单值供计算 sanity。TP 度数只在 decode 评,且仅当 TP 与 CP 同 tier 共享链路时才产生竞争(业界默认 TP 占快 tier、CP 占慢 tier,不共享)。

cp 范围依据业界设置:CP 并行度业界以 2 的幂为主——训练框架 Megatron-LM 典型档为 {1, 2, 4, 8}(NVIDIA Megatron-Core 文档);推理侧 Meta 将 CP 与 TP 组合扩到 128 GPU / 16 节点跑 1M 上下文(Llama3-405B,1M prefill 77 s、93% 并行效率,arXiv:2411.01783);Llama3 训练用 all-gather 式 CP 把上下文从 8K 扩到 128K(ISCA 2025)。容量是首要约束、TTFT 次之,故现实区间集中在 cp 2–8,极端长(1M)才上 16。本研究 {1, 2, 4, 8, 16} 覆盖该区间;MLA 的 KV 比 MHA 小约一个数量级、容量墙更晚到,实际所需 cp 偏低端,cp=16 更多作压力点。

生产部署现状(印证 MLA 少用 CP):DeepSeek-V3 公开部署方案中,prefill 注意力用 TP4 + 序列并行(SP)+ DP8、MoE 用 EP32,decode 用 EP144 + DP144,全程未用 CP(arXiv:2412.19437,LMSYS 复现);GLM-4.5(131K,GQA-MoE)用 TP / PP / EP / SP,亦未见 CP。说明 128K 级 MLA / MoE 模型靠 MLA 压缩 + TP-SP 即可,CP 主要用于超长(≥512K–1M)推理与长上下文训练。本研究的 CP 收益主要落在 512K–1M 区间;128K 区间 CP 可能非必需——这本身是给部署的结论。

模型锚定 DeepSeek-V3-671B 真实 MLA 参数(计算 / 通信比例与部署一致是结论可外推的前提):

参数取值
hidden / heads7168 / 128
q_lora / kv_lora rank1536 / 512
$c_{\text{kv}}$(BF16,含 K+V)1152 B/token/层
层数 $L$61
batch / dtype1 / BF16
芯片SG2262

@tbl-cpeval-fixed-params 固定参数(锚定 DeepSeek-V3-671B MLA)

实验产出

结果逐点增量入库,中途中断不丢数据。重心是容量墙(解析、即时)与 decode(单芯片访存 + pass-Q 通信仿真,含摆放场景);prefill 已由 probe 完成,仅补 512K–1M 几个确认点。

指标

指标回答可信度
每芯片 KV 占用 → 最小可行 cp容量墙查表(下游部署选型消费)可信(纯字节核算)
TPOT vs cp(按摆放)decode 侧 pass-Q + 计算的代价基本可信(访存仿真;大 cp / 小 $S$ 角落见限制)
prefill 加速比确认 ≈ cp、无带宽墙已验证(probe,非主产出)

@tbl-cpeval-metrics 测量指标与可信度

图表

回答
容量墙查表给定显存预算下,每序列长度的最小可行 cp
decode 代价曲线TPOT 随 cp 上升幅度(按 CP 组摆放分面)
decode 竞争图TP 度数对 decode TPOT 的影响(同 tier 摆放下)
prefill 确认图加速比 ≈ cp、通信/计算比值(一张,证无带宽墙)

@tbl-cpeval-display 图表产出(按可信度排序)

自洽校验

  • 暴露区间(通信 > 计算)内加速比必须 $<$ cp 且随暴露增大单调偏离——掩盖区间内加速比恒等于 cp 是建模恒等式,不作断言。
  • pass-KV 通信量与 CP spec 解析口径核对,严格相等。
  • decode 每芯片访存时长与字节量 / 带宽下界一致(cp=1 严格相等)。
  • cp=1 与无 CP 路径结果一致(退化基准)。

外部对标:Meta CP 论文

Meta(arXiv:2411.01783,Context Parallelism for Scalable Million-Token Inference)报告 H100 集群 1M 上下文的 pass-KV / pass-Q 实测,是双形态的出处,也是本研究唯一外部锚点。

对标只对相对量、不对绝对值:

  • 可对标(定性分工):prefill 有计算收益、decode 无计算收益——跨模型不变。
  • 印证本研究发现:Meta 实测 RDMA 与 TCP(中低跨节点带宽)对长上下文 prefill 都近线性扩展,即带宽不是 prefill 瓶颈——独立印证本研究"MLA prefill 在现实带宽区间无带宽墙"。Meta 用大 KV 的 Llama 尚且如此,KV 小一个数量级的 MLA 余量更大。
  • 不可对标:绝对 TTFT / TPOT,以及曲线线性度——Meta 用 Llama(MHA/GQA)、本研究用 MLA,$c_{\text{kv}}$ 小约一个数量级、曲线必然更线性,二者"都接近线性"是各自配置的独立结果,不构成相互验证。
  • 用途:佐证定性分工 + 带宽非瓶颈,不作通过 / 失败判据。

限制与待校准项

  • 只给相对趋势,不给绝对 TTFT:本研究产出最小可行 cp / TPOT 代价 / prefill 加速比(相对量),不产出毫秒级绝对 TTFT,绝对值不在本研究范围。
  • prefill 无带宽墙已确认:probe 实测通信占计算 ≤1%,$\max$ 近似精度 <1%,prefill 加速比 ≈ cp 为可靠结论;唯一不确定来自有效算力 $R$,但 $R$ 在加速比中约掉。
  • prefill 按单层外推:prefill 时长按单层 attention 仿真 × 层数,外推线性性需在一个点位(如 $S{=}512\text{K}$、cp$=8$)验证 per-layer 偏差后采用;FFN / MoE 层与层间效应不在 attention 段口径内。
  • decode 访存主导有边界:decode 主体(KV 读取)是芯片内访存仿真,比 prefill 解析更接近真值;但大 cp、小 $S$ 时计算占比上升,这些格子 TPOT 含未标定计算成分,结果中标注"仅供参考"。
  • CP 组摆放为离散场景:板内 / 跨板 / 跨机三档代表性摆放,非连续;具体集群的混合摆放需按实际拓扑重跑。
  • EP 流量竞争未进网格:只验 TP 竞争;MoE 下 EP 与 pass-KV 的三方竞争列为后续工作。
  • 单序列、BF16 口径:多序列并发竞争、FP8 KV 未覆盖;FP8 使掩盖更易,本研究边界偏保守侧。