跳到主要内容

1 篇文档带有标签「compute-bound」

查看所有标签

Prefill 与 Decode

推理两阶段的计算特征差异(compute-bound vs memory-bound)及 PD 分离动机