2 篇文档带有标签「clm」

总览

本章节范围：把 05 章组装好的 Transformer 骨架放在 trillion 级 token 上跑训练，让它从随机权重变成有语言能力的 LLM。包含训练目标 (next-token CLM)、训练循环 + 数据准备、scaling laws 三大主线。

CLM loss 的完整数学推导、shift-by-one 机制与 perplexity 解读