总览本章节范围:把 05 章组装好的 Transformer 骨架放在 trillion 级 token 上跑训练,让它从随机权重变成有语言能力的 LLM。包含训练目标 (next-token CLM)、训练循环 + 数据准备、scaling laws 三大主线。