6 篇文档带有标签「context-parallelism」

Decode 阶段 CP

KV 容量墙怎么逼出 KV 分片、pass-Q 为何比传 KV 量小几个数量级

attention 前后各一次 A2A 怎么转置张量维度、为何并行度受 head 数约束、USP 怎么混合

K/V 怎么环传分块、online softmax 如何增量累计、通信能否被计算掩盖

归约拓扑改树形怎么把步数压到 O(log p)、只传三量为何与序列长度解耦

注意力变稀疏、压缩或局部后，CP 的通信量和协议怎么随之变化？

本章节范围：上下文并行 (Context Parallelism, CP) 的算法与通信——把单条序列沿 token 维度切到多卡，解决长上下文 (128K-1M+) 下单卡装不下 activation 与 KV cache 的问题。