从 五个 Agent
砍到一个 Loop。
Frontier Model 时代,Multi-Agent 正从 2024 年的最佳实践,悄悄变成 2026 年的过度工程—— 一份基于 Respan AI 生产级 Agent 重写的对照实验报告。
模型已经强到能在完整上下文里端到端做完任务。拆开它,反而是在围绕一个已经消失的限制做架构。
三个维度全胜
同一模型、同一参数、唯一变量是架构。Tool-Use Efficiency +28.8%,Helpfulness +16.0%,Grounding +9.6%。
Architecture > Prompt
V2 在没人教的情况下,自己学会了不确定时去调用 docs_search。这不是 prompt engineering 的结果,是 loop 留出的空间。
判断标准
如果你的 agents 之间在传递 context,而不是做truly independent work——你可能只需要一个有完整 context 的 loop。
Respan 是一个 agent observability 与 evals 平台——提供 tracing、evaluator pipelines、experiment comparison 等能力。他们的产品里内嵌了一个 AI agent,帮用户操作平台功能:查日志、建 evaluator、跑实验、配置 automation。
这次重写的对象,就是这个内嵌 agent。不是用户拿去做事的 agent,是 Respan 自己做 dogfooding 的实验对象。所以他们能做严格对照——同一个模型、同一组参数、同一个 evaluation slate,唯一变量是架构。
这种"自家平台 dogfooding"的设定让数据具备最大可对比性,但也带来了局限:sample size = 1,且 Respan 是 evals 平台的销售方,文章兼具 case study 与产品推广双重属性。原文未披露具体使用的 frontier model 名称,只说 "same model and settings"。
V1 是经典的 2024 multi-agent pattern:顶层一个 router agent(约 10K char prompt)读用户消息,分发给四个领域 specialist——logs / evaluators / automations 等,每个 specialist 自带 50K char 左右的 focused prompt 和 narrow tool set。Router 拿 specialist 的返回结果决定下一步。
三个结构性问题
Context collapses at every handoff.
Sub-agent 作为 tool 被调用时,router 只看到 specialist 返回的摘要——完整对话、推理链、中间决策都被压成一段话。
围绕已经消失的限制做架构。
2024 年模型弱,narrow each agent's surface 是对的;2026 年 frontier model 已能在长上下文下端到端完成任务。围绕已不存在的限制做架构 = 纯开销。
Five prompts, five blast radii.
加一个新 tool 要改 router、改对应 specialist、改路由规则。五个 surface 中任意一个的 typo 都能 ship 一个 regression。
V2 砍掉了 router 与所有 specialist。一个 agent 在一个连续 reasoning chain 里决定每一步 action,直到任务完成——同模型、同参数,唯一变量是架构。
但"给 agent 完整 context"的代价是 resting context 暴增。让 single loop 实际可行的关键,是 two-tier tool loading——核心工具常驻,长尾工具藏在 search 后面,按需拉 schema。
六项关键设计
log_* / dataset_* / experiment_*),约 70 个 long-tail tools 放在 tool_search 后面,按需拉 schema。id vs workflow_id)task_create / task_update 让 agent 在可见位置规划多步工作。notification_method_list 返回结果中无匹配项时问用户,不静默创建。experiment_create 要 version PK 不是 family ID" 写进 prompt + diagnose-not-retry pattern。Respan 用自家平台 dogfooding——dataset 从 production traces 拉,evaluator pipeline 自建,experiment 在同一 slate 上对比 V1 vs V2。三个 evaluator 全部 1-100 strictness-anchored 打分,judge 是 claude-haiku-4-5。
三个 Evaluator
Helpfulness & Completeness
最终消息是否回答了问题?是否真正执行了 action?还是停在 "Want me to proceed?"
Tool-Use Efficiency
按问题复杂度分级,惩罚冗余调用——重复 create、scratchpad spam、无 filter 变化的重复 list。
Hallucination & Grounding
提取最终消息中每个具体 claim(数字、ID、资源名),检查是否可追溯到 tool output。
多数 decent agent runs 落在 40-70 区间。80+ 仅当 ground truth 的每个 must-have 都命中。
Internal Probes
— Fixed · Run on every prompt change
每次 prompt 变更都跑的固定题集,覆盖四类 bug:
- Taxonomy evaluator vs grader vs pipeline 是否区分正确?
- Actions 多步 create/update 流程能否端到端执行?
- Cross-domain ID 纪律是否跨领域传递?
- Honest-failure 不支持的功能是否会编造 trigger type?
OOD Customer Questions
— Held out · Never in regression net
从 support inbox 提炼的真实客户问题,故意不放进 regression net,保持 novel。用于验证 internal slate 的改进是否泛化到未预见的问题。
"What's my current monthly request volume and how is it trending?"
"我的错误率今早飙升,找出失败的日志告诉我原因。"
Internal Slate
同样的 pattern 在 OOD 真实客户问题上保持,Helpfulness & Completeness 增益最显著——在真实场景里,"停在确认" 等于 "客户没拿到想要的东西"。
文章的判断:regression net 保证已知 failure mode 不回退,OOD set 保证改进能泛化到未见问题。两层缺一不可。
V2 prompt 还在粗稿阶段时,Respan 团队观察到 agent 在做一件没人教它的事:碰到陌生请求或意外 tool error 时,自己去调 docs_search,多次查文档,验证当前 schema,确认字段期望的 ID 类型,搞清楚 tool 为什么报错。
Prompt 里没有写 "look up the docs when unsure"。是 loop 本身给了这个空间。
V1 做不到——specialist 碰到陌生错误只能返回一个字符串给 router,router 基于压缩摘要决策,没法重新进入 loop。V2 的 loop 接到 error → 读文档 → 用正确 shape 重试 → 然后才回到用户,全在一个 pass 里,状态不丢。
A clean loop with full context isn't just a tidier engineering surface. It changes what the model is capable of, because every recovery path stays open.
Respan AI · on the V2 rewrite
这不是 prompt engineering 的结果——是架构选择带来的 emergent capability。
Respan 的论断有边界——文章明确说 "both patterns are valid"。判断框架核心一句:如果 agents 之间在传递 context 而不是做 truly independent work,就该合回一个 loop。
When to collapse
- Agents 之间在 传递 context 而不是做独立工作
- 模型能力足以端到端完成整个任务
- 当前系统是 2024 年设计的 multi-agent
- 需要 debuggability 与可见 reasoning chain
When to split
- Agents 在做 truly independent work
- 各 agent 不需要传递 context / 共享状态
- 单 loop 的 prompt blast radius 已不可控
- 任务可以在并行中获得真实加速
Tool Loading 是 Single Loop 能 Work 的关键——不是 "给 agent 所有工具然后祈祷",是 core set always present + long tail behind search。这是必须的前置工程。
Regression Net 是 Agent Rewrite 的最小可行 Eval——fixed internal probes(覆盖已知 failure mode)+ OOD real customer questions(验证泛化)。两层缺一不可。