Cache-aware 调度
如何以 Prefix cache 命中率驱动请求路由,在命中率与负载均衡间取得平衡
如何以 Prefix cache 命中率驱动请求路由,在命中率与负载均衡间取得平衡
PD 分离学术原型如何用 Goodput 指标驱动双 Placement 算法设计
跨节点 KV 传输何时受 RTT 主导、何时受带宽限制,以及如何突破瓶颈
推理两阶段的计算特征差异(compute-bound vs memory-bound)及 PD 分离动机
核心要点:
LMSYS 96 H100 DeepSeek-V3 案例:五项调优怎么组合、三个瓶颈在哪