长 CoT 与 Test-time scaling 如何放大 decode 集群的 KV 压力与调度挑战
可执行验证、多数投票与 LLM-as-judge 三类信号各适合哪种场景,以及如何对冲 LLM 裁判的偏差