跳到主要内容

2 篇文档带有标签「expert-parallelism」

查看所有标签

MoE 路由

256 路由 + 1 共享专家,每 token top-8——sigmoid 独立打分 + bias EMA 做无辅助损失负载均衡