4 篇文档带有标签「dsa」

IndexShare

利用相邻层 top-K 索引的 70-100% 重叠，让 3/4 的 Transformer 层跳过 indexer 计算

用一个便宜的打分器为每个 query 挑出最相关的 key——比固定窗口准，比 dense 省

注意力变稀疏、压缩或局部后，CP 的通信量和协议怎么随之变化？

78 层 MLA 低秩注意力 + DSA 动态稀疏选择 + 1/4 层跨层复用索引——稀疏路线堆出 1M 无损上下文