跳到主要内容

Tier6-Model头脑风暴 COP 互联通信问题追踪通用知识库其他开发计划 refs 技术规格验证

1 篇文档带有标签「instructgpt」

查看所有标签

RLHF

三步流程（SFT → 训 RM → PPO）的原理、显存代价与 reward hacking 风险