跳到主要内容

2 篇文档带有标签「ulysses」

查看所有标签

DeepSpeed-Ulysses

attention 前后各一次 A2A 怎么转置张量维度、为何并行度受 head 数约束、USP 怎么混合

总览

本章节范围:上下文并行 (Context Parallelism, CP) 的算法与通信——把单条序列沿 token 维度切到多卡,解决长上下文 (128K-1M+) 下单卡装不下 activation 与 KV cache 的问题。