跳到主要内容

3 篇文档带有标签「top-k」

查看所有标签

IndexShare

利用相邻层 top-K 索引的 70-100% 重叠,让 3/4 的 Transformer 层跳过 indexer 计算

动态稀疏选择

用一个便宜的打分器为每个 query 挑出最相关的 key——比固定窗口准,比 dense 省

采样与解码

从 greedy 到 nucleus 再到 speculative decoding,各采样策略的原理与适用场景