跳到主要内容

1 篇文档带有标签「all-reduce」

查看所有标签

Tree Attention

归约拓扑改树形怎么把步数压到 O(log p)、只传三量为何与序列长度解耦