跳到主要内容

2 篇文档带有标签「quantization」

查看所有标签

总览

本章节范围:把训完 + 对齐完的 LLM 用起来生成 token,这一阶段的工程关键:prefill / decode 二段特征 → KV cache 管理 → sampling 算法 → 量化加速。是模型从"实验室能跑" 到"生产能扛 100K QPS" 的工程主线。

量化简介

PTQ 三大方法(GPTQ / AWQ / SmoothQuant)及 INT8 / FP8 / INT4 的精度与加速权衡