跳到主要内容

2 篇文档带有标签「clm」

查看所有标签

总览

本章节范围:把 05 章组装好的 Transformer 骨架放在 trillion 级 token 上跑训练,让它从随机权重变成有语言能力的 LLM。包含训练目标 (next-token CLM)、训练循环 + 数据准备、scaling laws 三大主线。

语言建模目标

CLM loss 的完整数学推导、shift-by-one 机制与 perplexity 解读