跳到主要内容

1 篇文档带有标签「rl」

查看所有标签

Slime RL 训练

Muon 预训练 + Slime 异步解耦 RL + GRPO+IcePop 硬门控 + OPD 双 teacher 蒸馏