跳到主要内容

2 篇文档带有标签「tree-attention」

查看所有标签

Tree Attention

归约拓扑改树形怎么把步数压到 O(log p)、只传三量为何与序列长度解耦

总览

本章节范围:上下文并行 (Context Parallelism, CP) 的算法与通信——把单条序列沿 token 维度切到多卡,解决长上下文 (128K-1M+) 下单卡装不下 activation 与 KV cache 的问题。