单 agent 循环
ReAct 与 ReWOO 两种循环范式各有什么取舍,agent 与 workflow 的控制流边界在哪里
核心要点:
- agent loop = 推理-行动-观察的迭代闭环
- ReAct:推理锚定行动,观察减幻觉
- ReWOO:先规划后执行,token 效率约 5×
- agent 由 LLM 掌控制流
- 控制流是 agent 与 workflow 的分界
本文讲单 agent 的自主循环。确定性 workflow 模式与"何时不该用循环"见 05-确定性workflow。
agent loop 的基本结构是什么?
核心问题:一个 agent "自己干活"时,内部在循环什么?
基本结构是推理→行动→观察的迭代闭环,由 LLM 在运行时决定下一步。模型读取当前状态,推理出该调哪个工具,执行后观察结果,再决定下一步,直到判断任务完成而停止。
关键特征是控制流掌握在模型手里:没有预先写死的步骤序列,每一步做什么由模型当场决定。这赋予 agent 处理开放式任务的能力,代价是路径不可预测、调试更难——这正是它与 workflow 的根本区别(见 05-确定性workflow)。
ReAct 怎么减少幻觉?
核心问题:让模型边想边做,比只想或只做强在哪?
ReAct 交替生成推理(thought)和行动(action),用观察结果锚定推理、抑制幻觉[1]。Yao et al. 发现,纯推理容易脱离事实编造,纯行动缺乏规划;两者交替让推理被真实观察约束。
机制是 thought-action-observation 三元交替:模型先想"我需要查 X",执行查询动作,观察到真实结果,再基于结果想下一步。在 HotpotQA、FEVER、ALFWorld 等任务上,ReAct 优于推理-only 和行动-only 基线(ALFWorld 成功率绝对提升约 34%)。这条思路是现代 agent loop 的基础范式——让外部观察持续校正模型的内部推理。
ReWOO 比 ReAct 省在哪?
核心问题:ReAct 每步都要模型往返一次,能不能少调几次?
ReWOO 把规划与执行彻底解耦:一次规划出完整工具序列,再并行执行,token 效率约提升 5×[2]。它针对 ReAct 的痛点——每个 observation 都要重新喂回模型,推理上下文反复膨胀。
ReWOO 分三角色:planner 一次性生成完整的工具调用计划,worker 并行执行这些调用,solver 综合结果。在 HotpotQA 上 token 效率提升 5 倍、准确率提升 4%,还能把推理能力从 175B 模型迁移到 7B 小模型。可借鉴的权衡:计划质量足够时,先规划后执行比走一步看一步更省;但任务高度依赖中间观察时,ReAct 的逐步反馈更稳。
agent 和 workflow 怎么区分?
核心问题:都是"多步骤完成任务",agent 和 workflow 的界线在哪?
界线在控制流归谁:agent 让 LLM 掌控下一步,workflow 由代码预先编排[3]。这是 Anthropic 给出的核心区分。
- workflow:步骤和路径由代码写死,路径可预测、失败可定位。
- agent: LLM 在运行时决定控制流,适合开放式任务但成本高、调试难。
Anthropic 的建议很明确:优先选最简方案,能用 workflow 解决就不引入自主 agent。单 agent 循环是强大但昂贵的工具,只在任务真正开放、步骤无法预先确定时才动用。workflow 的五种模式见 05-确定性workflow。
Takeaway
| 知识点 | 核心结论 |
|---|---|
| agent loop | 推理-行动-观察迭代,LLM 运行时决定下一步 |
| ReAct | thought-action-observation 交替,观察锚定推理减幻觉 |
| ReWOO | planner-worker-solver,先规划后执行,token 效率约 5× |
| 控制流归属 | agent 由 LLM 掌控,workflow 由代码编排 |
| 选型 | 优先 workflow,任务真正开放才用自主 agent |
参考资料
- Yao et al. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629, 2022. https://arxiv.org/abs/2210.03629
- Xu et al. ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models. arXiv:2305.18323, 2023. https://arxiv.org/abs/2305.18323
- Anthropic. Building effective agents. 2024. https://www.anthropic.com/engineering/building-effective-agents
延伸阅读
- 05-确定性workflow — 五种 workflow 模式与"何时不用 agent"
- 03-多agent-fanout — 单 agent 之外的多 agent 并行