Decode 阶段 CP
KV 容量墙怎么逼出 KV 分片、pass-Q 为何比传 KV 量小几个数量级
KV 容量墙怎么逼出 KV 分片、pass-Q 为何比传 KV 量小几个数量级
attention 前后各一次 A2A 怎么转置张量维度、为何并行度受 head 数约束、USP 怎么混合
K/V 怎么环传分块、online softmax 如何增量累计、通信能否被计算掩盖
归约拓扑改树形怎么把步数压到 O(log p)、只传三量为何与序列长度解耦
注意力变稀疏、压缩或局部后,CP 的通信量和协议怎么随之变化?
本章节范围:上下文并行 (Context Parallelism, CP) 的算法与通信——把单条序列沿 token 维度切到多卡,解决长上下文 (128K-1M+) 下单卡装不下 activation 与 KV cache 的问题。