256 路由 + 1 共享专家,每 token top-8——sigmoid 独立打分 + bias EMA 做无辅助损失负载均衡
LMSYS 96 H100 DeepSeek-V3 案例:五项调优怎么组合、三个瓶颈在哪