远程与异步 agent

后台执行隔离、远程控制架构与异步场景下的介入时机设计

核心要点：

异步 agent 后台跑长任务，worktree 隔离

远程控制：agent 在本地，浏览器/手机是窗口

三种介入时机：计划审批 / PR 审阅 / 中途打断

推送与轮询互补

何时打断人有收敛经验

本文讲 agent 脱离实时对话的运行模式。运行中的人工介入机制见 03-HITL与steering，长任务状态见 04-编排/06-长任务与状态。

异步 agent 怎么后台跑？

核心问题：长任务要跑几十分钟，怎么不占着实时对话？

让 agent 在后台异步执行，用 git worktree 隔离并行工作区[1]。异步 SWE agent 研究（CAID 框架）的三原语是：集中式任务委托（DAG 分解）、异步执行（协程并发）、隔离工作区(worktree)。

一个关键结论值得记住：隔离工作区是多 agent 协调的核心，而非给单 agent 加时间预算——独立工作区让并行 agent 互不干扰；论文也指出一味提高并行度收益递减。这与 04-编排/03-多agent-fanout 的"子任务独立才并行"一致。

核心问题：用手机驱动一个 agent，它到底在哪运行？

agent 始终在本地机器运行，浏览器/手机只是一个"窗口"，通过 API 轮询桥接[2]。Claude Code Remote Control 的设计是：本地跑、远程看，不把代码和执行搬到云端。

这套机制配三种场景分层：实时驾驶(Remote Control)、fire-and-forget 派活(Dispatch)、外部事件响应(Channels)。可借鉴的判断：远程控制不等于云执行——把执行留在本地、只把交互界面远程化，兼顾了便利与数据不出本地。

核心问题：agent 在后台跑，人在什么时候、用什么方式插手？

三种介入时机：执行前计划审批、执行后 PR 审阅、执行中 input_required 打断[3]。异步把同步对话里连续的介入拆成了几个离散时点。

计划审批（执行前）：看 agent 的计划再放行。
PR 审阅（执行后）：agent 把结果做成 PR，人审代码（GitHub Copilot cloud agent 的模式）。
中途打断(input_required): agent 遇到歧义暂停求助，MCP Tasks 协议用 input_required 状态标准化暂停-恢复[4]。

轮询与推送互补：推送做即时唤醒、轮询做状态确认——推送通知告诉用户"该看了",tasks/get 确认当前状态[4]。可借鉴的设计：异步交互要把"何时需要人"显式建模成状态，而非让人不断主动查。

核心问题：agent 该多频繁地打断用户？

业界普遍采用一组规则：高置信不打断，歧义/不可逆/卡住才打断。打断太频繁等于退回同步，太少则失控，平衡点有几条常见规则：

底层挑战是传输层失配——HTTP 同步请求与 agent 长生命周期天然冲突，业界用持久化状态 + 持久化传输（如 MCP Tasks handle）解决。可借鉴的原则：把"何时打断人"做成显式规则，默认少打断、只在歧义和不可逆处介入。

Geng & Neubig. Effective Strategies for Asynchronous Software Engineering Agents. arXiv:2603.21489, 2026. https://arxiv.org/abs/2603.21489
Anthropic. Claude Code: Remote Control. 2025. https://code.claude.com/docs/en/remote-control
GitHub. About GitHub Copilot cloud agent. 2025. https://docs.github.com/copilot/concepts/agents/coding-agent/about-coding-agent
WorkOS. MCP Async Tasks: Building long-running workflows for AI Agents. 2025. https://workos.com/blog/mcp-async-tasks-ai-agent-workflows