2 篇文档带有标签「training-loop」

总览

本章节范围：把 05 章组装好的 Transformer 骨架放在 trillion 级 token 上跑训练，让它从随机权重变成有语言能力的 LLM。包含训练目标 (next-token CLM)、训练循环 + 数据准备、scaling laws 三大主线。

预训练数据集演化、AdamW 配置、学习率调度与 loss spike 应对