跳到主要内容

2 篇文档带有标签「alignment」

查看所有标签

DPO 与新方法

DPO 如何消去 RM + PPO,及 KTO、ORPO、SimPO 的进一步简化思路

总览

本章节范围:把 06 章训出来的 base model 变成能听懂指令、回答有用、行为安全的 instruct/aligned model。两步:SFT (instruction tuning) 教模型听指令,RLHF / DPO 等对齐方法让回答符合人类偏好。