IndexShare
利用相邻层 top-K 索引的 70-100% 重叠,让 3/4 的 Transformer 层跳过 indexer 计算
利用相邻层 top-K 索引的 70-100% 重叠,让 3/4 的 Transformer 层跳过 indexer 计算
Effort Level + MTP 投机解码 + HiSparse/TITO/EP 通信路径 + 8 家国产卡 Day-0 适配,MIT 开源
PTQ 三大方法(GPTQ / AWQ / SmoothQuant)及 INT8 / FP8 / INT4 的精度与加速权衡