跳到主要内容

4 篇文档带有标签「dsa」

查看所有标签

IndexShare

利用相邻层 top-K 索引的 70-100% 重叠,让 3/4 的 Transformer 层跳过 indexer 计算

动态稀疏选择

用一个便宜的打分器为每个 query 挑出最相关的 key——比固定窗口准,比 dense 省

注意力架构

78 层 MLA 低秩注意力 + DSA 动态稀疏选择 + 1/4 层跨层复用索引——稀疏路线堆出 1M 无损上下文