2 篇文档带有标签「rlhf」

RLHF

三步流程（SFT → 训 RM → PPO）的原理、显存代价与 reward hacking 风险

本章节范围：把 06 章训出来的 base model 变成能听懂指令、回答有用、行为安全的 instruct/aligned model。两步：SFT (instruction tuning) 教模型听指令，RLHF / DPO 等对齐方法让回答符合人类偏好。