3 篇文档带有标签「inference」

总览

本章节范围：大模型 (LLM) 从输入 token 到输出 logits 的完整内部流程拆解——文本数字化、注意力机制、transformer 组装、预训练、微调对齐、推理，每一步的矩阵运算与张量形状。

本章节范围：把训完 + 对齐完的 LLM 用起来生成 token，这一阶段的工程关键：prefill / decode 二段特征 → KV cache 管理 → sampling 算法 → 量化加速。是模型从"实验室能跑" 到"生产能扛 100K QPS" 的工程主线。

Effort Level + MTP 投机解码 + HiSparse/TITO/EP 通信路径 + 8 家国产卡 Day-0 适配，MIT 开源