跳到主要内容

2 篇文档带有标签「ring-attention」

查看所有标签

Ring Attention

K/V 怎么环传分块、online softmax 如何增量累计、通信能否被计算掩盖

总览

本章节范围:上下文并行 (Context Parallelism, CP) 的算法与通信——把单条序列沿 token 维度切到多卡,解决长上下文 (128K-1M+) 下单卡装不下 activation 与 KV cache 的问题。