跳到主要内容

1 篇文档带有标签「sequence-compression」

查看所有标签

序列压缩注意力

沿序列方向把若干 token 的 KV 加权融合成一个压缩 entry,减少 entry 总数