跳到主要内容

验证闭环

可执行验证、多数投票与 LLM-as-judge 三类信号各适合哪种场景,以及如何对冲 LLM 裁判的偏差

核心要点

  • 生成-验证非对称:验证比生成容易
  • verifier-driven:测试/编译/PRM 做 ground truth
  • 对抗投票:多实例独立采样,错误倾向分散
  • self-consistency:多采样取多数
  • LLM-as-judge:无标准答案时用 LLM 评判,有偏差

本文讲 agent 怎么判断输出对不对。判断之后据此改进见 03-反思与自修复

为什么"验证"是 agent 自纠的关键?

核心问题:让模型自己改对,前提是它能判断什么是对——这件事凭什么成立?

因为验证一个候选解通常比生成正确解容易,这个生成-验证非对称是自纠的基础[1]。直觉来自 P vs NP:检查答案比找出答案省力。

这个非对称解释了为什么各种自纠机制有效:03-反思与自修复 的 Self-Refine 靠模型评判自己输出,前提就是评判能力强于一次生成。验证越可靠,自纠越有效。下面按"验证信号从硬到软"展开。

verifier-driven 怎么用可执行检查?

核心问题:最可靠的验证信号从哪来?

用可执行检查(跑测试、编译、过程奖励模型)作为无幻觉的 ground truth 反馈[1]。可执行信号是最硬的验证——它不依赖模型判断,直接来自真实执行。

  • 测试/编译反馈:coding agent 把测试套件执行结果嵌入 action-observation 循环,提供 ground-truth 信号。
  • 过程奖励模型(PRM):对每个推理步骤打标签而非只看最终答案,在 MATH 上把准确率推到 78%,大幅超过只看结果的监督。
  • 训练独立 verifier:从多候选中选最高分,性能优于直接微调 generator,且随数据量放大优势[2]

可借鉴的判断:只要任务有可执行检查(测试/编译/类型),就让它做验证锚,别让模型自己说对不对

没有标准答案怎么投票?

核心问题:开放推理任务没有测试可跑,怎么提升可靠性?

用多次独立采样投票:错误答案倾向分散,正确答案倾向收敛。两种代表方法:

  • self-consistency:温度采样生成 K 条推理链,取多数答案,GSM8K +17.9%、SVAMP +11.0%[3]。局限:系统性错误会被一起放大,且推理成本 K 倍。
  • 对抗式多数投票/辩论:多个实例互相质疑、独立判断,难以被证伪的结论置信度更高[4]

这种独立采样投票在实践中被广泛用于核查——对每条结论 spawn 多个独立 verifier 试图证伪,多数证伪即剔除。可借鉴的判断:无 ground truth 时,用独立采样的收敛性近似正确性,但要警惕系统性偏差被放大。

LLM 能当裁判吗?

核心问题:开放式输出连投票都难量化,能用一个 LLM 来评判吗?

LLM-as-judge 在无可执行标准时可用,与人类一致率超 80%,但有系统性偏差需缓解[5]。Zheng et al. 用 GPT-4 当裁判,在 MT-Bench 上与人类判断高度一致。

三类已知偏差要防:

  • 位置偏差:倾向选靠前的候选。
  • 冗长偏差:倾向选更长的回答。
  • 自增强偏差:倾向选自己生成的内容。

缓解手段是换位验证(交换候选顺序复评)和参考答案锚定。可借鉴的判断:LLM-as-judge 适合开放式质量评估,但要用多裁判/换位/参考答案对冲偏差——这也是用多个独立 reviewer 交叉评判比单一裁判更稳的理由。

Takeaway

知识点核心结论
生成-验证非对称验证比生成易,是一切自纠的基础
verifier-driven测试/编译/PRM 做无幻觉 ground truth,优先用
多数投票self-consistency 多采样取多数,错误分散正确收敛
对抗投票多实例独立证伪,难证伪者置信度高
LLM-as-judge无标准答案时可用,需防位置/冗长/自增强偏差

参考资料

  1. Lightman et al. Let's Verify Step by Step. arXiv:2305.20050, 2023. https://arxiv.org/abs/2305.20050
  2. Cobbe et al. Training Verifiers to Solve Math Word Problems. arXiv:2110.14168, 2021. https://arxiv.org/abs/2110.14168
  3. Wang et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171, 2022. https://arxiv.org/abs/2203.11171
  4. Du et al. Improving Factuality and Reasoning in Language Models through Multiagent Debate. arXiv:2305.14325, 2023. https://arxiv.org/abs/2305.14325
  5. Zheng et al. Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv:2306.05685, 2023. https://arxiv.org/abs/2306.05685

延伸阅读