跳到主要内容

1 篇文档带有标签「instructgpt」

查看所有标签

RLHF

三步流程(SFT → 训 RM → PPO)的原理、显存代价与 reward hacking 风险