总览

本章节范围：把 06 章训出来的 base model 变成能听懂指令、回答有用、行为安全的 instruct/aligned model。两步：SFT (instruction tuning) 教模型听指令，RLHF / DPO 等对齐方法让回答符合人类偏好。 目标读者：工程师 / 研究者；假设已读 06-预训练，知道 base model 怎么训出来。

范围与边界

包含：SFT 指令微调（数据格式 + chat template + 与预训练差异） / RLHF 三步流程 (SFT + RM + PPO) / DPO 思想及其变体 (KTO / ORPO / SimPO) / 当前业界 SFT + DPO / RLHF 路线选择。
不包含（各项外链）：
- 预训练（base model 怎么训出来） → 06-预训练
- 完整 RL 数学基础 （PPO 完整证明 / Actor-Critic）：本章仅讲直觉，数学详细见 RL 专题
- 推理 / 部署：→ 08-推理
- safety / red team / jailbreak：工程话题，本章仅在 RLHF 角度点到
- constitutional AI / RLAIF （用 AI 反馈替代人类）：在本章 RLHF 节点到为止，不完整展开
- reasoning 模型训练（o1 / R1 的 RL）：与传统 RLHF 不同，本章末尾点到指向未来专题
- LoRA / QLoRA 等参数高效微调 (PEFT)：工程话题，不展开

名词定义

本章节子文档默认这些名词已定义，不再重复；父总览 1 总览已定义的 (Pretraining / Fine-tuning) 在此不重列。

名词	定义
Base model	仅经过预训练（06 章）的模型，只会续写文本，不会"听指令"
Instruct model	经过 SFT 后的模型，能按用户指令回答；也叫 chat model
Aligned model	经过 RLHF / DPO 等对齐后的模型，回答符合人类偏好（有用 / 安全 / 真实）
SFT (Supervised Fine-Tuning)	指令微调：用（指令，回答）对继续训练，loss 仍是 CLM，但仅在回答部分算 loss
Chat template	把多轮对话格式化成模型能读的字符串模板（Llama / Qwen / ChatML 等格式）
Reward model (RM)	学习给"模型回答" 打分的辅助模型，用人类偏好数据训练
RLHF (Reinforcement Learning from Human Feedback)	用 reward model 给信号，通过 PPO 等 RL 算法优化 LLM
PPO (Proximal Policy Optimization)	Schulman 2017 的 RL 算法，通过 clip 限制 policy 更新幅度
DPO (Direct Preference Optimization)	Rafailov 2023 提出，把 RLHF 的"RM + PPO" 两步合成"一个 loss 直接训"，数学等价但工程简单
KTO / ORPO / SimPO	DPO 之后的进一步简化变体，各自调整 loss 形式
Preference data	由（prompt, chosen 回答，rejected 回答）组成的数据，训 RM 或直接训 DPO
RLAIF	RL from AI Feedback，用 AI （而非人类）给偏好标注

@tbl-align-glossary 本章共享名词

子文档索引

按"教听指令 → 对齐偏好" 顺序排列：

篇	一句话	独占技术内核（写到深）	负边界（不展开）
02-SFT 指令微调	用（指令，回答）对继续训练	base vs instruct 区别 → SFT loss （CLM 但仅在 response 上算） → 数据格式 (Alpaca / ShareGPT / FLAN / UltraChat) → chat template (Llama / Qwen / ChatML) → SFT 数据规模与质量（Phi 路线 vs 量大路线） → 与预训练超参差异	LoRA / QLoRA 不展开（工程话题）；多模态 SFT 不展开；safety / red team 数据归 RLHF
03-RLHF	reward model + PPO 三步流程	InstructGPT 三步 (SFT → RM → PPO) → reward model 训练目标 (Bradley-Terry pairwise) → PPO 直觉（clip ratio 限制 policy 更新） → KL penalty 防 reward hacking → Anthropic 的 RLHF 路线与 Constitutional AI 简述 → RLHF 难点（训练不稳 / 实施复杂 / GPU 显存翻 4 倍 / reward hacking）	不抠 PPO 完整数学；不展开 RLAIF; reasoning 模型 (o1/R1) 的 RL 仅点到
04-DPO 与新方法	DPO + KTO + ORPO + SimPO 演化	DPO 数学直觉（与 RLHF 等价但 closed-form，单一 loss） → DPO 训练流程（无需 RM，无需 PPO） → KTO （单边偏好，不需 chosen/rejected pair） → ORPO （SFT + 偏好合一阶段） → SimPO （无 reference model） → 业界状态（Llama 3 / Qwen 2/3 用 DPO 系） → 与 RLHF 对比的精度差距	reward model interpretability 不在本章；完整 RL theory 不展开

@tbl-align-index 子文档索引（含边界契约）

微调与对齐在 LLM 整体的位置

阶段	输入	输出	算力占比
预训练（06 章）	海量无标注文本 + 随机权重	base model	$\sim 99\%$
SFT （本章 02）	（指令，回答）对 + base model	instruct model	$\sim 0.5\%$
对齐（本章 03/04）	偏好对 + instruct model	aligned model	$\sim 0.5\%$
推理（08 章）	aligned model + 用户输入	生成响应	（用户侧，长期）

@tbl-align-stage 微调与对齐的算力占比

对齐阶段虽然算力仅 1%，但决定了模型"能不能用"：GPT-4 / Claude / Llama 3 表现的差异主要来自这 1%——base model 能力上限相近，对齐是分水岭。

演化路线：SFT → RLHF → DPO 一统

业界对齐方法在 2022-2024 演化迅速：

时期	主导方法	代表	特点
2022	InstructGPT RLHF	GPT-3.5 / ChatGPT	SFT + RM + PPO 三步，工程复杂
2023	DPO 提出	NeurIPS 2023	把 RM + PPO 合并成一个 loss
2024	DPO + 变体一统	Llama 3 / Qwen 2/3 / DeepSeek 全用 DPO 系	工程简单，效果接近 RLHF
2024+	Reasoning RL 兴起	o1 / R1	重新引入 RL，但目标是 reasoning 不是 alignment

@tbl-align-timeline 对齐方法演化时间线

当前 (2025-2026) 业界主流是 SFT + DPO，RLHF (PPO) 仍在 OpenAI / Anthropic 等少数有重型 RL 基础设施的团队中使用。

与外部专题的接缝

外链主题	在本章哪里引	目标
预训练 base model	各篇	06-预训练
LM head / CLM loss / shift-by-one	02-SFT	06-预训练/02-语言建模目标
Causal mask / 训练并行	02-SFT	04-注意力机制/04-因果掩码
推理 / sampling	03-RLHF （PPO 采样） + 04-DPO	08-推理
Reasoning RL (o1 / R1)	04-DPO 末尾	本知识库尚未覆盖，见各模型 tech report

@tbl-align-external 与外部专题的外链对照

参考资料

教学蓝本：

Sebastian Raschka. Build a Large Language Model (From Scratch). Manning, 2024. Chapter 6-7.

关键论文：

Ouyang et al. Training language models to follow instructions with human feedback (InstructGPT). NeurIPS 2022. https://arxiv.org/abs/2203.02155
Bai et al. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. Anthropic 2022. https://arxiv.org/abs/2204.05862
Rafailov et al. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023. https://arxiv.org/abs/2305.18290
Schulman et al. Proximal Policy Optimization Algorithms. 2017. https://arxiv.org/abs/1707.06347

章内交叉引用：父总览 1 总览给全章节地图与共享名词 / 形状约定。

范围与边界​

名词定义​

子文档索引​

微调与对齐在 LLM 整体的位置​

演化路线：SFT → RLHF → DPO 一统​

与外部专题的接缝​

参考资料​