总览
本章节范围:把 06 章训出来的 base model 变成能听懂指令、回答有用、行为安全的 instruct/aligned model。两步:SFT (instruction tuning) 教模型听指令,RLHF / DPO 等对齐方法让回答符合人类偏好。 目标读者:工程师 / 研究者;假设已读 06-预训练,知道 base model 怎么训出来。
范围与边界
- 包含:SFT 指令微调 (数据格式 + chat template + 与预训练差异) / RLHF 三步流程 (SFT + RM + PPO) / DPO 思想及其变体 (KTO / ORPO / SimPO) / 当前业界 SFT + DPO / RLHF 路线选择。
- 不包含 (各项外链):
- 预训练 (base model 怎么训出来) → 06-预训练
- 完整 RL 数学基础 (PPO 完整证明 / Actor-Critic):本章仅讲直觉,数学详细见 RL 专题
- 推理 / 部署:→ 08-推理
- safety / red team / jailbreak:工程话题,本章仅在 RLHF 角度点到
- constitutional AI / RLAIF (用 AI 反馈替代人类):在本章 RLHF 节点到为止,不完整展开
- reasoning 模型训练 (o1 / R1 的 RL):与传统 RLHF 不同,本章末尾点到指向未来专题
- LoRA / QLoRA 等参数高效微调 (PEFT):工程话题,不展开
名词定义
本章节子文档默认这些名词已定义,不再重复;父总览 1 总览 已定义的 (Pretraining / Fine-tuning) 在此不重列。
| 名词 | 定义 |
|---|---|
| Base model | 仅经过预训练 (06 章) 的模型,只会续写文本,不会"听指令" |
| Instruct model | 经过 SFT 后的模型,能按用户指令回答;也叫 chat model |
| Aligned model | 经过 RLHF / DPO 等对齐后的模型,回答符合人类偏好 (有用 / 安全 / 真实) |
| SFT (Supervised Fine-Tuning) | 指令微调:用 (指令,回答) 对继续训练,loss 仍是 CLM,但仅在回答部分算 loss |
| Chat template | 把多轮对话格式化成模型能读的字符串模板 (Llama / Qwen / ChatML 等格式) |
| Reward model (RM) | 学习给"模型回答" 打分的辅助模型,用人类偏好数据训练 |
| RLHF (Reinforcement Learning from Human Feedback) | 用 reward model 给信号,通过 PPO 等 RL 算法优化 LLM |
| PPO (Proximal Policy Optimization) | Schulman 2017 的 RL 算法,通过 clip 限制 policy 更新幅度 |
| DPO (Direct Preference Optimization) | Rafailov 2023 提出,把 RLHF 的"RM + PPO" 两步合成"一个 loss 直接训",数学等价但工程简单 |
| KTO / ORPO / SimPO | DPO 之后的进一步简化变体,各自调整 loss 形式 |
| Preference data | 由 (prompt, chosen 回答,rejected 回答) 组成的数据,训 RM 或直接训 DPO |
| RLAIF | RL from AI Feedback,用 AI (而非人类) 给偏好标注 |
@tbl-align-glossary 本章共享名词
子文档索引
按"教听指令 → 对齐偏好" 顺序排列:
| 篇 | 一句话 | 独占技术内核 (写到深) | 负边界 (不展开) |
|---|---|---|---|
| 02-SFT 指令微调 | 用 (指令,回答) 对继续训练 | base vs instruct 区别 → SFT loss (CLM 但仅在 response 上算) → 数据格式 (Alpaca / ShareGPT / FLAN / UltraChat) → chat template (Llama / Qwen / ChatML) → SFT 数据规模与质量 (Phi 路线 vs 量大路线) → 与预训练超参差异 | LoRA / QLoRA 不展开 (工程话题);多模态 SFT 不展开;safety / red team 数据归 RLHF |
| 03-RLHF | reward model + PPO 三步流程 | InstructGPT 三步 (SFT → RM → PPO) → reward model 训练目标 (Bradley-Terry pairwise) → PPO 直觉 (clip ratio 限制 policy 更新) → KL penalty 防 reward hacking → Anthropic 的 RLHF 路线与 Constitutional AI 简述 → RLHF 难点 (训练不稳 / 实施复杂 / GPU 显存翻 4 倍 / reward hacking) | 不抠 PPO 完整数学;不展开 RLAIF; reasoning 模型 (o1/R1) 的 RL 仅点到 |
| 04-DPO 与新方法 | DPO + KTO + ORPO + SimPO 演化 | DPO 数学直觉 (与 RLHF 等价但 closed-form,单一 loss) → DPO 训练流程 (无需 RM,无需 PPO) → KTO (单边偏好,不需 chosen/rejected pair) → ORPO (SFT + 偏好合一阶段) → SimPO (无 reference model) → 业界状态 (Llama 3 / Qwen 2/3 用 DPO 系) → 与 RLHF 对比的精度差距 | reward model interpretability 不在本章;完整 RL theory 不展开 |
@tbl-align-index 子文档索引 (含边界契约)
微调与对齐在 LLM 整体的位置
| 阶段 | 输入 | 输出 | 算力占比 |
|---|---|---|---|
| 预训练 (06 章) | 海量无标注文本 + 随机权重 | base model | $\sim 99\%$ |
| SFT (本章 02) | (指令,回答) 对 + base model | instruct model | $\sim 0.5\%$ |
| 对齐 (本章 03/04) | 偏好对 + instruct model | aligned model | $\sim 0.5\%$ |
| 推理 (08 章) | aligned model + 用户输入 | 生成响应 | (用户侧,长期) |
@tbl-align-stage 微调与对齐的算力占比
对齐阶段虽然算力仅 1%,但决定了模型"能不能用":GPT-4 / Claude / Llama 3 表现的差异主要来自这 1%——base model 能力上限相近,对齐是分水岭。
演化路线:SFT → RLHF → DPO 一统
业界对齐方法在 2022-2024 演化迅速:
| 时期 | 主导方法 | 代表 | 特点 |
|---|---|---|---|
| 2022 | InstructGPT RLHF | GPT-3.5 / ChatGPT | SFT + RM + PPO 三步,工程复杂 |
| 2023 | DPO 提出 | NeurIPS 2023 | 把 RM + PPO 合并成一个 loss |
| 2024 | DPO + 变体一统 | Llama 3 / Qwen 2/3 / DeepSeek 全用 DPO 系 | 工程简单,效果接近 RLHF |
| 2024+ | Reasoning RL 兴起 | o1 / R1 | 重新引入 RL,但目标是 reasoning 不是 alignment |
@tbl-align-timeline 对齐方法演化时间线
当前 (2025-2026) 业界主流是 SFT + DPO,RLHF (PPO) 仍在 OpenAI / Anthropic 等少数有重型 RL 基础设施的团队中使用。
与外部专题的接缝
| 外链主题 | 在本章哪里引 | 目标 |
|---|---|---|
| 预训练 base model | 各篇 | 06-预训练 |
| LM head / CLM loss / shift-by-one | 02-SFT | 06-预训练/02-语言建模目标 |
| Causal mask / 训练并行 | 02-SFT | 04-注意力机制/04-因果掩码 |
| 推理 / sampling | 03-RLHF (PPO 采样) + 04-DPO | 08-推理 |
| Reasoning RL (o1 / R1) | 04-DPO 末尾 | 本知识库尚未覆盖,见各模型 tech report |
@tbl-align-external 与外部专题的外链对照
参考资料
教学蓝本:
- Sebastian Raschka. Build a Large Language Model (From Scratch). Manning, 2024. Chapter 6-7.
关键论文:
- Ouyang et al. Training language models to follow instructions with human feedback (InstructGPT). NeurIPS 2022. https://arxiv.org/abs/2203.02155
- Bai et al. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. Anthropic 2022. https://arxiv.org/abs/2204.05862
- Rafailov et al. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023. https://arxiv.org/abs/2305.18290
- Schulman et al. Proximal Policy Optimization Algorithms. 2017. https://arxiv.org/abs/1707.06347
章内交叉引用:父总览 1 总览 给全章节地图与共享名词 / 形状约定。