跳到主要内容

2 篇文档带有标签「training」

查看所有标签

Slime RL 训练

Muon 预训练 + Slime 异步解耦 RL + GRPO+IcePop 硬门控 + OPD 双 teacher 蒸馏

总览

本章节范围:大模型 (LLM) 从输入 token 到输出 logits 的完整内部流程拆解——文本数字化、注意力机制、transformer 组装、预训练、微调对齐、推理,每一步的矩阵运算与张量形状。