验证闭环

可执行验证、多数投票与 LLM-as-judge 三类信号各适合哪种场景，以及如何对冲 LLM 裁判的偏差

核心要点：

生成-验证非对称：验证比生成容易

verifier-driven：测试/编译/PRM 做 ground truth

对抗投票：多实例独立采样，错误倾向分散

self-consistency：多采样取多数

LLM-as-judge：无标准答案时用 LLM 评判，有偏差

本文讲 agent 怎么判断输出对不对。判断之后据此改进见 03-反思与自修复。

为什么"验证"是 agent 自纠的关键？

核心问题：让模型自己改对，前提是它能判断什么是对——这件事凭什么成立？

因为验证一个候选解通常比生成正确解容易，这个生成-验证非对称是自纠的基础[1]。直觉来自 P vs NP：检查答案比找出答案省力。

这个非对称解释了为什么各种自纠机制有效：03-反思与自修复的 Self-Refine 靠模型评判自己输出，前提就是评判能力强于一次生成。验证越可靠，自纠越有效。下面按"验证信号从硬到软"展开。

核心问题：最可靠的验证信号从哪来？

用可执行检查（跑测试、编译、过程奖励模型）作为无幻觉的 ground truth 反馈[1]。可执行信号是最硬的验证——它不依赖模型判断，直接来自真实执行。

可借鉴的判断：只要任务有可执行检查（测试/编译/类型），就让它做验证锚，别让模型自己说对不对。

核心问题：开放推理任务没有测试可跑，怎么提升可靠性？

用多次独立采样投票：错误答案倾向分散，正确答案倾向收敛。两种代表方法：

self-consistency：温度采样生成 K 条推理链，取多数答案，GSM8K +17.9%、SVAMP +11.0%[3]。局限：系统性错误会被一起放大，且推理成本 K 倍。
对抗式多数投票/辩论：多个实例互相质疑、独立判断，难以被证伪的结论置信度更高[4]。

这种独立采样投票在实践中被广泛用于核查——对每条结论 spawn 多个独立 verifier 试图证伪，多数证伪即剔除。可借鉴的判断：无 ground truth 时，用独立采样的收敛性近似正确性，但要警惕系统性偏差被放大。

核心问题：开放式输出连投票都难量化，能用一个 LLM 来评判吗？

LLM-as-judge 在无可执行标准时可用，与人类一致率超 80%，但有系统性偏差需缓解[5]。Zheng et al. 用 GPT-4 当裁判，在 MT-Bench 上与人类判断高度一致。

三类已知偏差要防：

缓解手段是换位验证（交换候选顺序复评）和参考答案锚定。可借鉴的判断：LLM-as-judge 适合开放式质量评估，但要用多裁判/换位/参考答案对冲偏差——这也是用多个独立 reviewer 交叉评判比单一裁判更稳的理由。

知识点	核心结论
生成-验证非对称	验证比生成易，是一切自纠的基础
verifier-driven	测试/编译/PRM 做无幻觉 ground truth，优先用
多数投票	self-consistency 多采样取多数，错误分散正确收敛
对抗投票	多实例独立证伪，难证伪者置信度高
LLM-as-judge	无标准答案时可用，需防位置/冗长/自增强偏差

Lightman et al. Let's Verify Step by Step. arXiv:2305.20050, 2023. https://arxiv.org/abs/2305.20050
Cobbe et al. Training Verifiers to Solve Math Word Problems. arXiv:2110.14168, 2021. https://arxiv.org/abs/2110.14168
Wang et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171, 2022. https://arxiv.org/abs/2203.11171
Du et al. Improving Factuality and Reasoning in Language Models through Multiagent Debate. arXiv:2305.14325, 2023. https://arxiv.org/abs/2305.14325
Zheng et al. Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv:2306.05685, 2023. https://arxiv.org/abs/2306.05685