单 agent 循环

ReAct 与 ReWOO 两种循环范式各有什么取舍，agent 与 workflow 的控制流边界在哪里

核心要点：

agent loop = 推理-行动-观察的迭代闭环

ReAct：推理锚定行动，观察减幻觉

ReWOO：先规划后执行，token 效率约 5×

agent 由 LLM 掌控制流

控制流是 agent 与 workflow 的分界

本文讲单 agent 的自主循环。确定性 workflow 模式与"何时不该用循环"见 05-确定性workflow。

agent loop 的基本结构是什么？

核心问题：一个 agent "自己干活"时，内部在循环什么？

基本结构是推理→行动→观察的迭代闭环，由 LLM 在运行时决定下一步。模型读取当前状态，推理出该调哪个工具，执行后观察结果，再决定下一步，直到判断任务完成而停止。

关键特征是控制流掌握在模型手里：没有预先写死的步骤序列，每一步做什么由模型当场决定。这赋予 agent 处理开放式任务的能力，代价是路径不可预测、调试更难——这正是它与 workflow 的根本区别(见 05-确定性workflow)。

图 4.1: agent loop 的迭代闭环：推理决定行动，行动产生观察，观察反馈校正下一轮推理，LLM 在运行时判断何时结束

ReAct 怎么减少幻觉？

核心问题：让模型边想边做，比只想或只做强在哪？

ReAct 交替生成推理(thought)和行动(action)，用观察结果锚定推理、抑制幻觉[1]。Yao et al. 发现，纯推理容易脱离事实编造，纯行动缺乏规划；两者交替让推理被真实观察约束。

机制是 thought-action-observation 三元交替：模型先想"我需要查 X"，执行查询动作，观察到真实结果，再基于结果想下一步。在 HotpotQA、FEVER、ALFWorld 等任务上，ReAct 优于推理-only 和行动-only 基线（ALFWorld 成功率绝对提升约 34%）。这条思路是现代 agent loop 的基础范式——让外部观察持续校正模型的内部推理。

ReWOO 比 ReAct 省在哪？

核心问题：ReAct 每步都要模型往返一次，能不能少调几次？

ReWOO 把规划与执行彻底解耦：一次规划出完整工具序列，再并行执行，token 效率约提升 5×[2]。它针对 ReAct 的痛点——每个 observation 都要重新喂回模型，推理上下文反复膨胀。

ReWOO 分三角色：planner 一次性生成完整的工具调用计划，worker 并行执行这些调用，solver 综合结果。在 HotpotQA 上 token 效率提升 5 倍、准确率提升 4%，还能把推理能力从 175B 模型迁移到 7B 小模型。可借鉴的权衡：计划质量足够时，先规划后执行比走一步看一步更省；但任务高度依赖中间观察时，ReAct 的逐步反馈更稳。

agent 和 workflow 怎么区分？

核心问题：都是"多步骤完成任务",agent 和 workflow 的界线在哪？

界线在控制流归谁：agent 让 LLM 掌控下一步，workflow 由代码预先编排[3]。这是 Anthropic 给出的核心区分。

workflow：步骤和路径由代码写死，路径可预测、失败可定位。
agent: LLM 在运行时决定控制流，适合开放式任务但成本高、调试难。

Anthropic 的建议很明确：优先选最简方案，能用 workflow 解决就不引入自主 agent。单 agent 循环是强大但昂贵的工具，只在任务真正开放、步骤无法预先确定时才动用。workflow 的五种模式见 05-确定性workflow。

Takeaway

知识点	核心结论
agent loop	推理-行动-观察迭代，LLM 运行时决定下一步
ReAct	thought-action-observation 交替，观察锚定推理减幻觉
ReWOO	planner-worker-solver，先规划后执行，token 效率约 5×
控制流归属	agent 由 LLM 掌控，workflow 由代码编排
选型	优先 workflow，任务真正开放才用自主 agent

参考资料

Yao et al. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629, 2022. https://arxiv.org/abs/2210.03629
Xu et al. ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models. arXiv:2305.18323, 2023. https://arxiv.org/abs/2305.18323
Anthropic. Building effective agents. 2024. https://www.anthropic.com/engineering/building-effective-agents

agent loop 的基本结构是什么？​

ReAct 怎么减少幻觉？​

ReWOO 比 ReAct 省在哪？​

agent 和 workflow 怎么区分？​

Takeaway​

参考资料​

延伸阅读​