跳到主要内容

6 篇文档带有标签「pd-disaggregation」

查看所有标签

Cache-aware 调度

如何以 Prefix cache 命中率驱动请求路由,在命中率与负载均衡间取得平衡

DistServe

PD 分离学术原型如何用 Goodput 指标驱动双 Placement 算法设计

Prefill 与 Decode

推理两阶段的计算特征差异(compute-bound vs memory-bound)及 PD 分离动机