跳到主要内容

2 篇文档带有标签「scaling-laws」

查看所有标签

Scaling Laws

模型、数据、算力怎么配比,幂律如何从 Kaplan 演进到 Chinchilla 及之后

总览

本章节范围:把 05 章组装好的 Transformer 骨架放在 trillion 级 token 上跑训练,让它从随机权重变成有语言能力的 LLM。包含训练目标 (next-token CLM)、训练循环 + 数据准备、scaling laws 三大主线。