Scaling Laws

模型、数据、算力怎么配比，幂律如何从 Kaplan 演进到 Chinchilla 及之后

核心要点：

训练算力 $C \approx 6ND$ (fwd 2N + bwd 4N)，误差 1-10%

Kaplan 2020: $L(N) \propto N^{-0.076}$，主张大模型少 token

Chinchilla 2022 证伪 Kaplan：应该 $N : D \approx 1 : 20$，大模型多 token

Chinchilla 70B + 1.4T 击败 GPT-3 175B + 300B (MMLU 67.6% vs 43.9%)

Llama 3 偏离 Chinchilla: 8B 训 15T （超训 94×），推理成本驱动

Schaeffer 2023：涌现可能是 metric artifact，不是真"突现"

数据墙：高质量文本 2026-2032 耗尽（修正后）

名词定义

本篇共享名词在 6.1 总览已定义 (Compute budget C / Token budget D / Optimal allocation / Emergence)。本篇新引入：

名词	定义
Power law （幂律）	$L \propto x^{-\alpha}$ 形式的关系，scaling laws 的核心数学结构
IsoFLOP	固定算力 $C$ 下扫描不同 $(N, D)$ 组合，找最优的实验方法
Over-training	训练 token 数超过 Chinchilla 最优，通常为推理效率换训练成本
Inference-aware scaling	Sardana 2023 提出，把推理 FLOPs 计入总成本，偏好小模型多训
Compute-optimal frontier	给定 $C$ 下能达到的最低 loss，由 $(N, D)$ 最优分配决定
Brier score	概率预测的平方损失，与准确率不同，是连续 metric, Schaeffer 2023 用它证伪涌现

@tbl-scaling-glossary 本篇新引入名词

$C \approx 6ND$ 从哪里来？

核心问题：训练一个模型的总算力 (FLOPs) 怎么算？Scaling laws 反复出现的 $C = 6ND$ 公式怎么推导？

单 token 一次 forward 约 $2N$ FLOPs, backward 约 $4N$ ($\approx 2\times$ forward)，训练 $D$ 个 token 总算力 $C \approx 6ND$。Chinchilla 附录 Table A4 实测 $6ND$ 近似的误差 1-10%，足够 scaling laws 估算。

单 token 前向 ≈ 2N FLOPs

直觉：模型参数 $N$ 个，每个参数在一次前向里参与 2 次浮点运算（一次乘 + 一次加）。详细推导忽略 attention $O(T^2)$ 项（短序列下次要），得 fwd $\approx 2N$ FLOPs/token。

单 token 反向 ≈ 4N FLOPs

反向传播每参数需要算：(1) 对输入的梯度 (2) 对参数的梯度。两次链式法则的计算量 $\approx 2 \times$ 前向，即 $4N$ FLOPs/token。

总训练算力

$$\begin{equation} C \approx (2 + 4) \cdot N \cdot D = 6ND \quad \text{FLOPs} \label{eq:scaling-c-6nd} \end{equation}$$

例：Llama 3 405B 训 15.6T tokens, $C \approx 6 \cdot 4.05 \times 10^{11} \cdot 1.56 \times 10^{13} = 3.8 \times 10^{25}$ FLOPs，与官方公布一致。

Kaplan 2020：主张大模型少 token

核心问题：2020 年 Kaplan et al. 给出第一套系统 scaling laws，主张"算力增大时，更多花在大模型上，少加 token"。这套结论后来被推翻，但理解它的形式有助于理解 Chinchilla 怎么修正。

Kaplan 三条 power law + 最优分配公式，但 lr schedule 失当导致结论错误。

Kaplan 三条 power law

Kaplan et al. 2020[1] Table 5:

$$\begin{align} L(N) &= \left(\frac{8.8 \times 10^{13}}{N}\right)^{0.076}, \quad \alpha_N = 0.076 \\ L(D) &= \left(\frac{5.4 \times 10^{13}}{D}\right)^{0.095}, \quad \alpha_D = 0.095 \\ L(C) &= \left(\frac{C}{1.6 \times 10^7}\right)^{-0.057}, \quad \alpha_C = 0.057 \label{eq:scaling-kaplan-laws} \end{align}$$

三条 power law 是 scaling laws 的核心数学结构：loss 随 $N / D / C$ 涨幂律下降，指数 $\alpha$ 是关键。

Kaplan 最优分配

Table 6:

$$\begin{equation} N_{\text{opt}} = 1.3 \times 10^9 \cdot C^{0.73}, \quad D_{\text{opt}} = 2 \times 10^{10} \cdot C^{0.27} \label{eq:scaling-kaplan-opt} \end{equation}$$

含义：算力增加 $10\times$，模型应增 $5\times$，数据仅增 $2\times$。直觉是"大模型少 token"。

GPT-3 175B 训 300B token 就是这条法则的直接产物——按 Kaplan 优化，算力主要花在变大，而非加 token。

Kaplan 错在哪

Hoffmann 2022 Chinchilla 用更严谨方法重测，找出 Kaplan 错误的两个主要原因：

cosine cycle length 过长：Kaplan 的 lr schedule cosine cycle 超出 target steps 25% 以上，小模型 lr 未充分衰减就停，错误高估了大模型相对小模型的优势
模型 form 选择有偏差：Kaplan 用的 modelshape 范围有限，没有充分覆盖 Chinchilla 用的 IsoFLOP 头对头对比

IsoFLOP 头对头对比直接证伪 Kaplan：同 $10^{21}$ FLOPs 下，2.80B 模型表现优于 4.74B 模型，说明小模型多 token 更好。

Chinchilla 2022: $N : D \approx 1 : 20$

核心问题：Chinchilla 给出 scaling laws 的新最优分配，颠覆 Kaplan 的"大模型少 token"，主张"模型与数据同步增长"。具体公式是什么？实证如何？

Chinchilla 用三种方法独立测算最优分配，都得出 $N_{\text{opt}} : D_{\text{opt}} \approx 1 : 20$ 的关键结论；70B 模型 + 1.4T tokens 击败 175B + 300B，强力实证。

三种方法独立测算

Hoffmann et al. 2022[2] Table 2 用三个完全独立的方法测最优分配，都得相近指数：

方法	$N_{\text{opt}}$	$D_{\text{opt}}$
Approach 1 (IsoFLOP)	$\propto C^{0.50}$	$\propto C^{0.50}$
Approach 2	$\propto C^{0.49}$	$\propto C^{0.51}$
Approach 3 （参数化拟合）	$\propto C^{0.46}$	$\propto C^{0.54}$

@tbl-scaling-chinchilla-3 Chinchilla 三种方法测算最优分配

三条独立路径都给出 $N$ 和 $D$ 应该几乎同步增长，而非 Kaplan 的 0.73 vs 0.27。

结合 $C = 6ND$，大致 $N : D \approx 1 : 20$ 是 compute-optimal 比例 (Chinchilla 70B 用 1.4T tokens, $D/N \approx 20$)。

Chinchilla 参数化 loss

Appendix D.2 给出参数化 loss 公式：

$$\begin{equation} L(N, D) = 1.69 + \frac{406.4}{N^{0.34}} + \frac{410.7}{D^{0.28}} \label{eq:scaling-chinchilla-loss} \end{equation}$$

常数 $1.69$ 是不可降低的 loss 下界（irreducible loss，来自数据本身的随机性）
两个修正项分别随 $N, D$ 衰减
给定 $C = 6ND$ 优化 $L(N, D)$ 得到 Approach 3 的结果

Chinchilla 70B 实证：4× 少参数仍超 Gopher

模型	参数	Tokens	MMLU	BIG-bench
GPT-3	175B	300B	43.9%	—
Gopher	280B	300B	60.0%	54.4%
Chinchilla	70B	1.4T	67.6%	65.1%

@tbl-scaling-chinchilla-result Chinchilla 70B 同 FLOPs 击败 Gopher 280B （4× 少参数）

Chinchilla 70B + 1.4T tokens 与 Gopher 280B + 300B 算力相同 ($\sim 5.8 \times 10^{23}$)，但 Chinchilla 在 MMLU 上高 7.6 个百分点，BIG-bench 高 10.7 个百分点。这是 Chinchilla 论文最有力的实证：同算力下"小模型多 token" 显著优于"大模型少 token"。

Chinchilla 之后业界全面转向

Chinchilla 论文一出，业界训练范式立刻转变：

之前：比拼"谁的模型大" （Gopher 280B / GPT-3 175B / Megatron-Turing NLG 530B 都是大模型少 token）
之后：比拼"谁的模型 compute-optimal" 或"谁推理便宜" （Llama 70B / Mistral 7B / 等）

后 Chinchilla: Llama 3 / DeepSeek / inference-aware

核心问题：Chinchilla 给出 compute-optimal 的公式，Llama 3 偏离它训 15T tokens （远超最优），这是 Chinchilla 错了，还是 Llama 3 有新动机？

Llama 3 偏离 Chinchilla 不是错，是因为 Chinchilla 公式只考虑训练成本，忽略了"模型训完之后无限次推理" 的成本——inference-aware scaling 让小模型多训反而总成本最优。

Llama 3 超训 94×

Llama 3 全系 8B/70B/405B 都在 15T tokens 上训练[3]。

Chinchilla 最优下：

8B 对应 $\sim 160-200$B tokens
70B 对应 $\sim 1.4$T tokens
405B 对应 $\sim 8$T tokens

Llama 3 8B 用 15T tokens，比 Chinchilla 最优超训 ~94×, $D/N \approx 1{,}875$ (Chinchilla $D/N = 20$)。

Llama 3 的工程动机

Llama 3 tech report 明确解释偏离 Chinchilla 的原因：

"训练成本一次性，推理成本无限次，超训小模型在同等推理预算下质量更好"

直觉：405B 是 Meta 的 flagship 视为 compute-optimal，但 8B 和 70B 故意超训——这两个尺寸要被部署到生产环境无数次推理，模型小一点（训练贵一点）换推理省一点是值得的。

Sardana 2023：把推理算力计入

Sardana et al. ICML 2024[4] 形式化这种"训练 + 推理"联合优化：

$$\begin{equation} C_{\text{total}} = 6 N D_{\text{train}} + 2 N D_{\text{inference}} \label{eq:scaling-sardana} \end{equation}$$

$D_{\text{train}}$：训练 token 数
$D_{\text{inference}}$：全生命周期推理 token 数
推理 fwd ≈ $2N$ FLOPs/token，无 backward，是训练的 1/3

关键实证：

推理需求 $\sim 1$B 请求时，训 327M 参数模型（而非 Chinchilla 推荐的 175M + 多数据）可省 50% 总成本
推理 5T tokens 时省 28% FLOPs

核心瓶颈：推理 MFU 仅 $\sim 1\%$ (训练 MFU $\sim 30\%$+)，单 token 推理 wall-clock 很贵，所以 Sardana 的优化非常实际。

DeepSeek 2024 修正 Chinchilla

DeepSeek-AI 2024[5] 用更严谨实验重测 Chinchilla，主要改进：

重测指数：$N \propto C^{0.5243}, D \propto C^{0.4757}$ (Chinchilla 0.49/0.51)，略偏向更多算力给 $N$
引入非嵌入 FLOPs/token 替代 6ND：消除小模型 50% 测量误差
数据质量影响最优比例：解释了为什么 Llama 3 / DeepSeek / Qwen 给出不同最优 $D/N$ 估算

DeepSeek-V3 自己用 14.8T tokens 训 671B MoE （37B 激活），也偏离传统 Chinchilla 但有自己的 scaling 依据。

数据墙：2026-2032 耗尽

核心问题：scaling laws 主张多训，Llama 3 用了 15T, GPT-4 估计 13T+, DeepSeek-V3 14.8T。互联网上还剩多少高质量 token？什么时候用完？

Villalobos et al. ICML 2024 估算高质量公开文本约 300T tokens (90% CI 100-1000T)，在 2026-2032 年耗尽；早期 (2022) 版预测 2024 耗尽，后修正延至 2028。

关键数字

Villalobos et al. ICML 2024[6]:

质量调整后高质量公开文本存量 $\approx$ 300T tokens (90% CI: 100T-1000T)
若趋势持续将在 2026-2032 年耗尽
2022 版预测 2024 耗尽，2024 版修正延至 2028，原因是过滤网页数据可超越人工语料库存量 $\times 5$
Llama 3-70B 已 10× 超训，头部模型逼近高质量数据上限

数据墙之后怎么办

业界探索方向（本章不展开，仅列出）：

Synthetic data: Phi 系 textbook 路线 (见 03-训练循环与数据)
多模态扩展：文本 + 图像 + 音频 + 视频，多模态 token 量级 ×10+
反复使用同一数据 (multi-epoch)：实证 4-5 epoch 内仍有收益
RL / 推理时计算 (test-time compute)：o1 / R1 路线，推理时算力补充训练时数据

涌现能力：真是质变还是 metric 假象？

核心问题：Wei et al. 2022 提出大模型"涌现能力"：规模超过某阈值后突然出现新能力（in-context learning / chain-of-thought / 多步推理）。但 Schaeffer 2023 NeurIPS Outstanding Paper 反驳这是 metric artifact。谁对？

Schaeffer 2023 证明涌现至少部分是评估 metric 选择的产物，用连续 metric 测时是平滑幂律；但 compositional 任务的真实质变仍有争议。

Wei 2022: BIG-Bench 137 种涌现能力

Wei et al. 2022[7] 在 BIG-Bench 上发现 137 种涌现能力：

模型规模 < 阈值 (典型 $10^{22}$ FLOPs) 时，性能接近随机
规模超过阈值时，突然涌现 出该能力
典型例子：算术（PaLM 540B 达 SOTA）、in-context learning （GPT-3 起）、chain-of-thought (Wei 2022)

Schaeffer 2023：涌现是 metric 假象

Schaeffer et al. NeurIPS 2023 (Outstanding Paper)[8] 给出反例：

涌现是 metric 选择的 artifact，三个因素：
- 指标非线性（准确率是 0/1）
- 小规模分辨率不足
- 大规模采样稀疏
换用 Brier score 或 softmax 概率测时，原本"涌现"的算术任务变为平滑幂律
可在视觉任务上通过指标选择"制造"涌现现象

结论：涌现至少部分是看你用什么 metric——准确率有"门槛"，但概率本身是平滑的。

争议仍未终止

Schaeffer 反驳并非否定所有涌现，而是说"用对 metric 后多数变平滑"
compositional 任务（多步组合推理）上是否有真"质变" 仍开放
业界共识：至少存在一些"突现现象"，但比 Wei 2022 的 137 种少

Takeaway

知识点	核心结论
$C \approx 6ND$	fwd 2N + bwd 4N，误差 1-10% (Chinchilla A4)
Kaplan power law	$L(N) \propto N^{-0.076}$, $L(D) \propto D^{-0.095}$, $L(C) \propto C^{-0.057}$
Kaplan 最优分配	$N \propto C^{0.73}, D \propto C^{0.27}$, "大模型少 token" （后被证伪）
Kaplan 错因	cosine cycle 过长 + IsoFLOP 范围有偏
Chinchilla 三方法	三独立路径都得 $N \propto C^{0.49\pm}, D \propto C^{0.51\pm}$
Chinchilla 比例	$N : D \approx 1 : 20$ compute-optimal
Chinchilla 参数化 loss	$L = 1.69 + 406.4/N^{0.34} + 410.7/D^{0.28}$
Chinchilla 实证	70B + 1.4T 击败 Gopher 280B + 300B (MMLU 67.6% vs 60%)
Llama 3 偏离	8B 训 15T （超训 94×），动机 = 推理成本
Inference-aware (Sardana)	推理 1B 请求时小模型省 50% 总成本
DeepSeek 修正	$N \propto C^{0.5243}$，略偏向更多算力给 $N$
数据墙	高质量文本约 300T tokens, 2026-2032 耗尽
Wei 涌现	BIG-Bench 137 种，阈值后突现
Schaeffer 反驳	涌现是 metric artifact, Brier score 下变平滑

开放问题

数据墙之后的 scaling：高质量文本耗尽后 synthetic / multi-modal / multi-epoch / test-time compute 哪个会主导，仍开放
inference-aware scaling 的最优：Llama 3 8B 训 15T 是工程经验，但理论最优 $D/N$ 在推理成本下是多少，仍无定论
涌现是真现象还是 metric 假象：Schaeffer 2023 反驳并未终止争论，compositional 任务上的真"质变" 仍开放
scaling laws 是否适用 o1 / R1 推理模型：训练目标变（含 RL），6ND 公式是否还成立，学术界正在研究
MoE 的 scaling laws：DeepSeek-V3 671B MoE 37B 激活，怎么算 $N$？有效参数还是总参数？仍无共识
Chinchilla 公式在多语言 / 代码 / 数学上是否一致：不同 domain 数据的 scaling 指数可能不同，但缺乏系统对比

本章结束：训练范式走完一遍

走完 06 章，读者拿到 LLM 训练的全景：

数据 + 算力如何分配 (Chinchilla / Llama 3 / inference-aware)
训练循环长什么样 （AdamW + cosine + BF16 + spike 处理）
训练目标精确公式 (CLM cross-entropy + shift-by-one)
scaling laws 现状与争议 （Kaplan → Chinchilla → 后 Chinchilla，数据墙，涌现）

后续章节：

07-微调与对齐: base model 之后的 SFT / RLHF / DPO
08-推理: aligned model 的 prefill / decode / KV cache / 采样 / 量化

参考资料

Kaplan et al. Scaling Laws for Neural Language Models. 2020. https://arxiv.org/abs/2001.08361
Hoffmann et al. Training Compute-Optimal Large Language Models. 2022. https://arxiv.org/abs/2203.15556
Meta AI. The Llama 3 Herd of Models. 2024. https://arxiv.org/abs/2407.21783
Sardana et al. Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws. ICML 2024. https://arxiv.org/abs/2401.00448
DeepSeek-AI. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism. 2024. https://arxiv.org/abs/2401.02954
Villalobos et al. Will we run out of data? Limits of LLM scaling based on human-generated data. ICML 2024. https://arxiv.org/abs/2211.04325
Wei et al. Emergent Abilities of Large Language Models. TMLR 2022. https://arxiv.org/abs/2206.07682
Schaeffer et al. Are Emergent Abilities of Large Language Models a Mirage?. NeurIPS 2023 (Outstanding Paper). https://arxiv.org/abs/2304.15004

名词定义​

$C \approx 6ND$ 从哪里来？​

单 token 前向 ≈ 2N FLOPs​

单 token 反向 ≈ 4N FLOPs​

总训练算力​

Kaplan 2020：主张大模型少 token​

Kaplan 三条 power law​

Kaplan 最优分配​

Kaplan 错在哪​

Chinchilla 2022: $N : D \approx 1 : 20$​

三种方法独立测算​

Chinchilla 参数化 loss​

Chinchilla 70B 实证：4× 少参数仍超 Gopher​

Chinchilla 之后业界全面转向​

后 Chinchilla: Llama 3 / DeepSeek / inference-aware​

Llama 3 超训 94×​

Llama 3 的工程动机​

Sardana 2023：把推理算力计入​

DeepSeek 2024 修正 Chinchilla​

数据墙：2026-2032 耗尽​

关键数字​

数据墙之后怎么办​

涌现能力：真是质变还是 metric 假象？​

Wei 2022: BIG-Bench 137 种涌现能力​

Schaeffer 2023：涌现是 metric 假象​

争议仍未终止​

Takeaway​

开放问题​

本章结束：训练范式走完一遍​

延伸阅读​

参考资料​