总览
本章节范围:大模型 (LLM) 从输入 token 到输出 logits 的完整内部流程拆解——文本数字化、注意力机制、transformer 组装、预训练、微调对齐、推理,每一步的矩阵运算与张量形状。
本章节范围:大模型 (LLM) 从输入 token 到输出 logits 的完整内部流程拆解——文本数字化、注意力机制、transformer 组装、预训练、微调对齐、推理,每一步的矩阵运算与张量形状。
本章节范围:把训完 + 对齐完的 LLM 用起来生成 token,这一阶段的工程关键:prefill / decode 二段特征 → KV cache 管理 → sampling 算法 → 量化加速。是模型从"实验室能跑" 到"生产能扛 100K QPS" 的工程主线。
Effort Level + MTP 投机解码 + HiSparse/TITO/EP 通信路径 + 8 家国产卡 Day-0 适配,MIT 开源