Scaling Laws
模型、数据、算力怎么配比,幂律如何从 Kaplan 演进到 Chinchilla 及之后
核心要点:
- 训练算力 $C \approx 6ND$ (fwd 2N + bwd 4N),误差 1-10%
- Kaplan 2020: $L(N) \propto N^{-0.076}$,主张大模型少 token
- Chinchilla 2022 证伪 Kaplan:应该 $N : D \approx 1 : 20$,大模型多 token
- Chinchilla 70B + 1.4T 击败 GPT-3 175B + 300B (MMLU 67.6% vs 43.9%)
- Llama 3 偏离 Chinchilla: 8B 训 15T (超训 94×),推理成本驱动
- Schaeffer 2023:涌现可能是 metric artifact,不是真"突现"
- 数据墙:高质量文本 2026-2032 耗尽 (修正后)
名词定义
本篇共享名词在 6.1 总览 已定义 (Compute budget C / Token budget D / Optimal allocation / Emergence)。本篇新引入:
| 名词 | 定义 |
|---|---|
| Power law (幂律) | $L \propto x^{-\alpha}$ 形式的关系,scaling laws 的核心数学结构 |
| IsoFLOP | 固定算力 $C$ 下扫描不同 $(N, D)$ 组合,找最优的实验方法 |
| Over-training | 训练 token 数超过 Chinchilla 最优,通常为推理效率换训练成本 |
| Inference-aware scaling | Sardana 2023 提出,把推理 FLOPs 计入总成本,偏好小模型多训 |
| Compute-optimal frontier | 给定 $C$ 下能达到的最低 loss,由 $(N, D)$ 最优分配决定 |
| Brier score | 概率预测的平方损失,与准确率不同,是连续 metric, Schaeffer 2023 用它证伪涌现 |
@tbl-scaling-glossary 本篇新引入名词
$C \approx 6ND$ 从哪里来?
核心问题:训练一个模型的总算力 (FLOPs) 怎么算?Scaling laws 反复出现的 $C = 6ND$ 公式怎么推导?
单 token 一次 forward 约 $2N$ FLOPs, backward 约 $4N$ ($\approx 2\times$ forward),训练 $D$ 个 token 总算力 $C \approx 6ND$。Chinchilla 附录 Table A4 实测 $6ND$ 近似的误差 1-10%,足够 scaling laws 估算。
单 token 前向 ≈ 2N FLOPs
直觉:模型参数 $N$ 个,每个参数在一次前向里参与 2 次浮点运算 (一次乘 + 一次加)。详细推导忽略 attention $O(T^2)$ 项 (短序列下次要),得 fwd $\approx 2N$ FLOPs/token。
单 token 反向 ≈ 4N FLOPs
反向传播每参数需要算:(1) 对输入的梯度 (2) 对参数的梯度。两次链式法则的计算量 $\approx 2 \times$ 前向,即 $4N$ FLOPs/token。
总训练算力
$$\begin{equation} C \approx (2 + 4) \cdot N \cdot D = 6ND \quad \text{FLOPs} \label{eq:scaling-c-6nd} \end{equation}$$例:Llama 3 405B 训 15.6T tokens, $C \approx 6 \cdot 4.05 \times 10^{11} \cdot 1.56 \times 10^{13} = 3.8 \times 10^{25}$ FLOPs,与官方公布一致。
Kaplan 2020:主张大模型少 token
核心问题:2020 年 Kaplan et al. 给出第一套系统 scaling laws,主张"算力增大时,更多花在大模型上,少加 token"。这套结论后来被推翻,但理解它的形式有助于理解 Chinchilla 怎么修正。
Kaplan 三条 power law + 最优分配公式,但 lr schedule 失当导致结论错误。
Kaplan 三条 power law
Kaplan et al. 2020[1] Table 5:
$$\begin{align} L(N) &= \left(\frac{8.8 \times 10^{13}}{N}\right)^{0.076}, \quad \alpha_N = 0.076 \\ L(D) &= \left(\frac{5.4 \times 10^{13}}{D}\right)^{0.095}, \quad \alpha_D = 0.095 \\ L(C) &= \left(\frac{C}{1.6 \times 10^7}\right)^{-0.057}, \quad \alpha_C = 0.057 \label{eq:scaling-kaplan-laws} \end{align}$$三条 power law 是 scaling laws 的核心数学结构:loss 随 $N / D / C$ 涨幂律下降,指数 $\alpha$ 是关键。
Kaplan 最优分配
Table 6:
$$\begin{equation} N_{\text{opt}} = 1.3 \times 10^9 \cdot C^{0.73}, \quad D_{\text{opt}} = 2 \times 10^{10} \cdot C^{0.27} \label{eq:scaling-kaplan-opt} \end{equation}$$含义:算力增加 $10\times$,模型应增 $5\times$,数据仅增 $2\times$。直觉是"大模型少 token"。
GPT-3 175B 训 300B token 就是这条法则的直接产物——按 Kaplan 优化,算力主要花在变大,而非加 token。
Kaplan 错在哪
Hoffmann 2022 Chinchilla 用更严谨方法重测,找出 Kaplan 错误的两个主要原因:
- cosine cycle length 过长:Kaplan 的 lr schedule cosine cycle 超出 target steps 25% 以上,小模型 lr 未充分衰减就停,错误高估了大模型相对小模型的优势
- 模型 form 选择有偏差:Kaplan 用的 modelshape 范围有限,没有充分覆盖 Chinchilla 用的 IsoFLOP 头对头对比
IsoFLOP 头对头对比直接证伪 Kaplan:同 $10^{21}$ FLOPs 下,2.80B 模型表现优于 4.74B 模型,说明小模型多 token 更好。
Chinchilla 2022: $N : D \approx 1 : 20$
核心问题:Chinchilla 给出 scaling laws 的新最优分配,颠覆 Kaplan 的"大模型少 token",主张"模型与数据同步增长"。具体公式是什么?实证如何?
Chinchilla 用三种方法独立测算最优分配,都得出 $N_{\text{opt}} : D_{\text{opt}} \approx 1 : 20$ 的关键结论;70B 模型 + 1.4T tokens 击败 175B + 300B,强力实证。
三种方法独立测算
Hoffmann et al. 2022[2] Table 2 用三个完全独立的方法测最优分配,都得相近指数:
| 方法 | $N_{\text{opt}}$ | $D_{\text{opt}}$ |
|---|---|---|
| Approach 1 (IsoFLOP) | $\propto C^{0.50}$ | $\propto C^{0.50}$ |
| Approach 2 | $\propto C^{0.49}$ | $\propto C^{0.51}$ |
| Approach 3 (参数化拟合) | $\propto C^{0.46}$ | $\propto C^{0.54}$ |
@tbl-scaling-chinchilla-3 Chinchilla 三种方法测算最优分配
三条独立路径都给出 $N$ 和 $D$ 应该几乎同步增长,而非 Kaplan 的 0.73 vs 0.27。
结合 $C = 6ND$,大致 $N : D \approx 1 : 20$ 是 compute-optimal 比例 (Chinchilla 70B 用 1.4T tokens, $D/N \approx 20$)。
Chinchilla 参数化 loss
Appendix D.2 给出参数化 loss 公式:
$$\begin{equation} L(N, D) = 1.69 + \frac{406.4}{N^{0.34}} + \frac{410.7}{D^{0.28}} \label{eq:scaling-chinchilla-loss} \end{equation}$$- 常数 $1.69$ 是不可降低的 loss 下界 (irreducible loss,来自数据本身的随机性)
- 两个修正项分别随 $N, D$ 衰减
- 给定 $C = 6ND$ 优化 $L(N, D)$ 得到 Approach 3 的结果
Chinchilla 70B 实证:4× 少参数仍超 Gopher
| 模型 | 参数 | Tokens | MMLU | BIG-bench |
|---|---|---|---|---|
| GPT-3 | 175B | 300B | 43.9% | — |
| Gopher | 280B | 300B | 60.0% | 54.4% |
| Chinchilla | 70B | 1.4T | 67.6% | 65.1% |
@tbl-scaling-chinchilla-result Chinchilla 70B 同 FLOPs 击败 Gopher 280B (4× 少参数)
Chinchilla 70B + 1.4T tokens 与 Gopher 280B + 300B 算力相同 ($\sim 5.8 \times 10^{23}$),但 Chinchilla 在 MMLU 上高 7.6 个百分点,BIG-bench 高 10.7 个百分点。这是 Chinchilla 论文最有力的实证:同算力下"小模型多 token" 显著优于"大模型少 token"。
Chinchilla 之后业界全面转向
Chinchilla 论文一出,业界训练范式立刻转变:
- 之前:比拼"谁的模型大" (Gopher 280B / GPT-3 175B / Megatron-Turing NLG 530B 都是大模型少 token)
- 之后:比拼"谁的模型 compute-optimal" 或"谁推理便宜" (Llama 70B / Mistral 7B / 等)
后 Chinchilla: Llama 3 / DeepSeek / inference-aware
核心问题:Chinchilla 给出 compute-optimal 的公式,Llama 3 偏离它训 15T tokens (远超最优),这是 Chinchilla 错了,还是 Llama 3 有新动机?
Llama 3 偏离 Chinchilla 不是错,是因为 Chinchilla 公式只考虑训练成本,忽略了"模型训完之后无限次推理" 的成本——inference-aware scaling 让小模型多训反而总成本最优。
Llama 3 超训 94×
Llama 3 全系 8B/70B/405B 都在 15T tokens 上训练[3]。
Chinchilla 最优下:
- 8B 对应 $\sim 160-200$B tokens
- 70B 对应 $\sim 1.4$T tokens
- 405B 对应 $\sim 8$T tokens
Llama 3 8B 用 15T tokens,比 Chinchilla 最优超训 ~94×, $D/N \approx 1{,}875$ (Chinchilla $D/N = 20$)。
Llama 3 的工程动机
Llama 3 tech report 明确解释偏离 Chinchilla 的原因:
"训练成本一次性,推理成本无限次,超训小模型在同等推理预算下质量更好"
直觉:405B 是 Meta 的 flagship 视为 compute-optimal,但 8B 和 70B 故意超训——这两个尺寸要被部署到生产环境无数次推理,模型小一点 (训练贵一点) 换推理省一点是值得的。
Sardana 2023:把推理算力计入
Sardana et al. ICML 2024[4] 形式化这种"训练 + 推理"联合优化:
$$\begin{equation} C_{\text{total}} = 6 N D_{\text{train}} + 2 N D_{\text{inference}} \label{eq:scaling-sardana} \end{equation}$$- $D_{\text{train}}$:训练 token 数
- $D_{\text{inference}}$:全生命周期推理 token 数
- 推理 fwd ≈ $2N$ FLOPs/token,无 backward,是训练的 1/3
关键实证:
- 推理需求 $\sim 1$B 请求时,训 327M 参数模型 (而非 Chinchilla 推荐的 175M + 多数据) 可省 50% 总成本
- 推理 5T tokens 时省 28% FLOPs
核心瓶颈:推理 MFU 仅 $\sim 1\%$ (训练 MFU $\sim 30\%$+),单 token 推理 wall-clock 很贵,所以 Sardana 的优化非常实际。
DeepSeek 2024 修正 Chinchilla
DeepSeek-AI 2024[5] 用更严谨实验重测 Chinchilla,主要改进:
- 重测指数:$N \propto C^{0.5243}, D \propto C^{0.4757}$ (Chinchilla 0.49/0.51),略偏向更多算力给 $N$
- 引入非嵌入 FLOPs/token 替代 6ND:消除小模型 50% 测量误差
- 数据质量影响最优比例:解释了为什么 Llama 3 / DeepSeek / Qwen 给出不同最优 $D/N$ 估算
DeepSeek-V3 自己用 14.8T tokens 训 671B MoE (37B 激活),也偏离传统 Chinchilla 但有自己的 scaling 依据。
数据墙:2026-2032 耗尽
核心问题:scaling laws 主张多训,Llama 3 用了 15T, GPT-4 估计 13T+, DeepSeek-V3 14.8T。互联网上还剩多少高质量 token?什么时候用完?
Villalobos et al. ICML 2024 估算高质量公开文本约 300T tokens (90% CI 100-1000T),在 2026-2032 年耗尽;早期 (2022) 版预测 2024 耗尽,后修正延至 2028。
关键数字
Villalobos et al. ICML 2024[6]:
- 质量调整后高质量公开文本存量 $\approx$ 300T tokens (90% CI: 100T-1000T)
- 若趋势持续将在 2026-2032 年耗尽
- 2022 版预测 2024 耗尽,2024 版修正延至 2028,原因是过滤网页数据可超越人工语料库存量 $\times 5$
- Llama 3-70B 已 10× 超训,头部模型逼近高质量数据上限
数据墙之后怎么办
业界探索方向 (本章不展开,仅列出):
- Synthetic data: Phi 系 textbook 路线 (见 03-训练循环与数据)
- 多模态扩展:文本 + 图像 + 音频 + 视频,多模态 token 量级 ×10+
- 反复使用同一数据 (multi-epoch):实证 4-5 epoch 内仍有收益
- RL / 推理时计算 (test-time compute):o1 / R1 路线,推理时算力补充训练时数据
涌现能力:真是质变还是 metric 假象?
核心问题:Wei et al. 2022 提出大模型"涌现能力":规模超过某阈值后突然出现新能力 (in-context learning / chain-of-thought / 多步推理)。但 Schaeffer 2023 NeurIPS Outstanding Paper 反驳这是 metric artifact。谁对?
Schaeffer 2023 证明涌现至少部分是评估 metric 选择的产物,用连续 metric 测时是平滑幂律;但 compositional 任务的真实质变仍有争议。
Wei 2022: BIG-Bench 137 种涌现能力
Wei et al. 2022[7] 在 BIG-Bench 上发现 137 种涌现能力:
- 模型规模 < 阈值 (典型 $10^{22}$ FLOPs) 时,性能接近随机
- 规模超过阈值时,突然涌现 出该能力
- 典型例子:算术 (PaLM 540B 达 SOTA)、in-context learning (GPT-3 起)、chain-of-thought (Wei 2022)
Schaeffer 2023:涌现是 metric 假象
Schaeffer et al. NeurIPS 2023 (Outstanding Paper)[8] 给出反例:
- 涌现是 metric 选择的 artifact,三个因素:
- 指标非线性 (准确率是 0/1)
- 小规模分辨率不足
- 大规模采样稀疏
- 换用 Brier score 或 softmax 概率测时,原本"涌现"的算术任务变为平滑幂律
- 可在视觉任务上通过指标选择"制造"涌现现象
结论:涌现至少部分是看你用什么 metric——准确率有"门槛",但概率本身是平滑的。
争议仍未终止
- Schaeffer 反驳并非否定所有涌现,而是说"用对 metric 后多数变平滑"
- compositional 任务 (多步组合推理) 上是否有真"质变" 仍开放
- 业界共识:至少存在一些"突现现象",但比 Wei 2022 的 137 种少
Takeaway
| 知识点 | 核心结论 |
|---|---|
| $C \approx 6ND$ | fwd 2N + bwd 4N,误差 1-10% (Chinchilla A4) |
| Kaplan power law | $L(N) \propto N^{-0.076}$, $L(D) \propto D^{-0.095}$, $L(C) \propto C^{-0.057}$ |
| Kaplan 最优分配 | $N \propto C^{0.73}, D \propto C^{0.27}$, "大模型少 token" (后被证伪) |
| Kaplan 错因 | cosine cycle 过长 + IsoFLOP 范围有偏 |
| Chinchilla 三方法 | 三独立路径都得 $N \propto C^{0.49\pm}, D \propto C^{0.51\pm}$ |
| Chinchilla 比例 | $N : D \approx 1 : 20$ compute-optimal |
| Chinchilla 参数化 loss | $L = 1.69 + 406.4/N^{0.34} + 410.7/D^{0.28}$ |
| Chinchilla 实证 | 70B + 1.4T 击败 Gopher 280B + 300B (MMLU 67.6% vs 60%) |
| Llama 3 偏离 | 8B 训 15T (超训 94×),动机 = 推理成本 |
| Inference-aware (Sardana) | 推理 1B 请求时小模型省 50% 总成本 |
| DeepSeek 修正 | $N \propto C^{0.5243}$,略偏向更多算力给 $N$ |
| 数据墙 | 高质量文本约 300T tokens, 2026-2032 耗尽 |
| Wei 涌现 | BIG-Bench 137 种,阈值后突现 |
| Schaeffer 反驳 | 涌现是 metric artifact, Brier score 下变平滑 |
开放问题
- 数据墙之后的 scaling:高质量文本耗尽后 synthetic / multi-modal / multi-epoch / test-time compute 哪个会主导,仍开放
- inference-aware scaling 的最优:Llama 3 8B 训 15T 是工程经验,但理论最优 $D/N$ 在推理成本下是多少,仍无定论
- 涌现是真现象还是 metric 假象:Schaeffer 2023 反驳并未终止争论,compositional 任务上的真"质变" 仍开放
- scaling laws 是否适用 o1 / R1 推理模型:训练目标变 (含 RL),6ND 公式是否还成立,学术界正在研究
- MoE 的 scaling laws:DeepSeek-V3 671B MoE 37B 激活,怎么算 $N$?有效参数还是总参数?仍无共识
- Chinchilla 公式在多语言 / 代码 / 数学 上是否一致:不同 domain 数据的 scaling 指数可能不同,但缺乏系统对比
本章结束:训练范式走完一遍
走完 06 章,读者拿到 LLM 训练的全景:
- 数据 + 算力如何分配 (Chinchilla / Llama 3 / inference-aware)
- 训练循环长什么样 (AdamW + cosine + BF16 + spike 处理)
- 训练目标精确公式 (CLM cross-entropy + shift-by-one)
- scaling laws 现状与争议 (Kaplan → Chinchilla → 后 Chinchilla,数据墙,涌现)
后续章节:
- 07-微调与对齐: base model 之后的 SFT / RLHF / DPO
- 08-推理: aligned model 的 prefill / decode / KV cache / 采样 / 量化
延伸阅读
- 上一篇:训练循环与数据 → 6.3 训练循环与数据
- 下一章:微调与对齐 → 07-微调与对齐
- 业界模型对比与 scaling → knowledge/01-业界动态
- Chinchilla 完整论文 → https://arxiv.org/abs/2203.15556
- Llama 3 完整 tech report → https://arxiv.org/abs/2407.21783
参考资料
- Kaplan et al. Scaling Laws for Neural Language Models. 2020. https://arxiv.org/abs/2001.08361
- Hoffmann et al. Training Compute-Optimal Large Language Models. 2022. https://arxiv.org/abs/2203.15556
- Meta AI. The Llama 3 Herd of Models. 2024. https://arxiv.org/abs/2407.21783
- Sardana et al. Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws. ICML 2024. https://arxiv.org/abs/2401.00448
- DeepSeek-AI. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism. 2024. https://arxiv.org/abs/2401.02954
- Villalobos et al. Will we run out of data? Limits of LLM scaling based on human-generated data. ICML 2024. https://arxiv.org/abs/2211.04325
- Wei et al. Emergent Abilities of Large Language Models. TMLR 2022. https://arxiv.org/abs/2206.07682
- Schaeffer et al. Are Emergent Abilities of Large Language Models a Mirage?. NeurIPS 2023 (Outstanding Paper). https://arxiv.org/abs/2304.15004