跳到主要内容

总览

本章节范围:把 06 章训出来的 base model 变成能听懂指令、回答有用、行为安全的 instruct/aligned model。两步:SFT (instruction tuning) 教模型听指令,RLHF / DPO 等对齐方法让回答符合人类偏好。 目标读者:工程师 / 研究者;假设已读 06-预训练,知道 base model 怎么训出来。

范围与边界

  • 包含:SFT 指令微调 (数据格式 + chat template + 与预训练差异) / RLHF 三步流程 (SFT + RM + PPO) / DPO 思想及其变体 (KTO / ORPO / SimPO) / 当前业界 SFT + DPO / RLHF 路线选择。
  • 不包含 (各项外链)
    • 预训练 (base model 怎么训出来)06-预训练
    • 完整 RL 数学基础 (PPO 完整证明 / Actor-Critic):本章仅讲直觉,数学详细见 RL 专题
    • 推理 / 部署:→ 08-推理
    • safety / red team / jailbreak:工程话题,本章仅在 RLHF 角度点到
    • constitutional AI / RLAIF (用 AI 反馈替代人类):在本章 RLHF 节点到为止,不完整展开
    • reasoning 模型训练 (o1 / R1 的 RL):与传统 RLHF 不同,本章末尾点到指向未来专题
    • LoRA / QLoRA 等参数高效微调 (PEFT):工程话题,不展开

名词定义

本章节子文档默认这些名词已定义,不再重复;父总览 1 总览 已定义的 (Pretraining / Fine-tuning) 在此不重列。

名词定义
Base model仅经过预训练 (06 章) 的模型,只会续写文本,不会"听指令"
Instruct model经过 SFT 后的模型,能按用户指令回答;也叫 chat model
Aligned model经过 RLHF / DPO 等对齐后的模型,回答符合人类偏好 (有用 / 安全 / 真实)
SFT (Supervised Fine-Tuning)指令微调:用 (指令,回答) 对继续训练,loss 仍是 CLM,但仅在回答部分算 loss
Chat template把多轮对话格式化成模型能读的字符串模板 (Llama / Qwen / ChatML 等格式)
Reward model (RM)学习给"模型回答" 打分的辅助模型,用人类偏好数据训练
RLHF (Reinforcement Learning from Human Feedback)用 reward model 给信号,通过 PPO 等 RL 算法优化 LLM
PPO (Proximal Policy Optimization)Schulman 2017 的 RL 算法,通过 clip 限制 policy 更新幅度
DPO (Direct Preference Optimization)Rafailov 2023 提出,把 RLHF 的"RM + PPO" 两步合成"一个 loss 直接训",数学等价但工程简单
KTO / ORPO / SimPODPO 之后的进一步简化变体,各自调整 loss 形式
Preference data由 (prompt, chosen 回答,rejected 回答) 组成的数据,训 RM 或直接训 DPO
RLAIFRL from AI Feedback,用 AI (而非人类) 给偏好标注

@tbl-align-glossary 本章共享名词

子文档索引

按"教听指令 → 对齐偏好" 顺序排列:

一句话独占技术内核 (写到深)负边界 (不展开)
02-SFT 指令微调用 (指令,回答) 对继续训练base vs instruct 区别 → SFT loss (CLM 但仅在 response 上算) → 数据格式 (Alpaca / ShareGPT / FLAN / UltraChat) → chat template (Llama / Qwen / ChatML) → SFT 数据规模与质量 (Phi 路线 vs 量大路线) → 与预训练超参差异LoRA / QLoRA 不展开 (工程话题);多模态 SFT 不展开;safety / red team 数据归 RLHF
03-RLHFreward model + PPO 三步流程InstructGPT 三步 (SFT → RM → PPO) → reward model 训练目标 (Bradley-Terry pairwise) → PPO 直觉 (clip ratio 限制 policy 更新) → KL penalty 防 reward hacking → Anthropic 的 RLHF 路线与 Constitutional AI 简述 → RLHF 难点 (训练不稳 / 实施复杂 / GPU 显存翻 4 倍 / reward hacking)不抠 PPO 完整数学;不展开 RLAIF; reasoning 模型 (o1/R1) 的 RL 仅点到
04-DPO 与新方法DPO + KTO + ORPO + SimPO 演化DPO 数学直觉 (与 RLHF 等价但 closed-form,单一 loss) → DPO 训练流程 (无需 RM,无需 PPO) → KTO (单边偏好,不需 chosen/rejected pair) → ORPO (SFT + 偏好合一阶段) → SimPO (无 reference model) → 业界状态 (Llama 3 / Qwen 2/3 用 DPO 系) → 与 RLHF 对比的精度差距reward model interpretability 不在本章;完整 RL theory 不展开

@tbl-align-index 子文档索引 (含边界契约)

微调与对齐在 LLM 整体的位置

阶段输入输出算力占比
预训练 (06 章)海量无标注文本 + 随机权重base model$\sim 99\%$
SFT (本章 02)(指令,回答) 对 + base modelinstruct model$\sim 0.5\%$
对齐 (本章 03/04)偏好对 + instruct modelaligned model$\sim 0.5\%$
推理 (08 章)aligned model + 用户输入生成响应(用户侧,长期)

@tbl-align-stage 微调与对齐的算力占比

对齐阶段虽然算力仅 1%,但决定了模型"能不能用":GPT-4 / Claude / Llama 3 表现的差异主要来自这 1%——base model 能力上限相近,对齐是分水岭。

演化路线:SFT → RLHF → DPO 一统

业界对齐方法在 2022-2024 演化迅速:

时期主导方法代表特点
2022InstructGPT RLHFGPT-3.5 / ChatGPTSFT + RM + PPO 三步,工程复杂
2023DPO 提出NeurIPS 2023把 RM + PPO 合并成一个 loss
2024DPO + 变体一统Llama 3 / Qwen 2/3 / DeepSeek 全用 DPO 系工程简单,效果接近 RLHF
2024+Reasoning RL 兴起o1 / R1重新引入 RL,但目标是 reasoning 不是 alignment

@tbl-align-timeline 对齐方法演化时间线

当前 (2025-2026) 业界主流是 SFT + DPO,RLHF (PPO) 仍在 OpenAI / Anthropic 等少数有重型 RL 基础设施的团队中使用。

与外部专题的接缝

外链主题在本章哪里引目标
预训练 base model各篇06-预训练
LM head / CLM loss / shift-by-one02-SFT06-预训练/02-语言建模目标
Causal mask / 训练并行02-SFT04-注意力机制/04-因果掩码
推理 / sampling03-RLHF (PPO 采样) + 04-DPO08-推理
Reasoning RL (o1 / R1)04-DPO 末尾本知识库尚未覆盖,见各模型 tech report

@tbl-align-external 与外部专题的外链对照

参考资料

教学蓝本:

  • Sebastian Raschka. Build a Large Language Model (From Scratch). Manning, 2024. Chapter 6-7.

关键论文:

章内交叉引用:父总览 1 总览 给全章节地图与共享名词 / 形状约定。