Cache-aware 调度
如何以 Prefix cache 命中率驱动请求路由,在命中率与负载均衡间取得平衡
如何以 Prefix cache 命中率驱动请求路由,在命中率与负载均衡间取得平衡
长 CoT 与 Test-time scaling 如何放大 decode 集群的 KV 压力与调度挑战
目的:解答 G5 RC Link 仿真器中 segment "待发队列 → 链路层 TX" 的喂入应当 polling-driven 还是 event-driven,从 5 个业界主流开源仿真器中提取可直接借鉴的实现模式。