IndexShare
利用相邻层 top-K 索引的 70-100% 重叠,让 3/4 的 Transformer 层跳过 indexer 计算
利用相邻层 top-K 索引的 70-100% 重叠,让 3/4 的 Transformer 层跳过 indexer 计算
用一个便宜的打分器为每个 query 挑出最相关的 key——比固定窗口准,比 dense 省
注意力变稀疏、压缩或局部后,CP 的通信量和协议怎么随之变化?
78 层 MLA 低秩注意力 + DSA 动态稀疏选择 + 1/4 层跨层复用索引——稀疏路线堆出 1M 无损上下文