跳到主要内容

3 篇文档带有标签「fp8」

查看所有标签

IndexShare

利用相邻层 top-K 索引的 70-100% 重叠,让 3/4 的 Transformer 层跳过 indexer 计算

推理部署

Effort Level + MTP 投机解码 + HiSparse/TITO/EP 通信路径 + 8 家国产卡 Day-0 适配,MIT 开源

量化简介

PTQ 三大方法(GPTQ / AWQ / SmoothQuant)及 INT8 / FP8 / INT4 的精度与加速权衡