Field Note № 07 · Production Rewrite

从五个 Agent
砍到一个 Loop。

Frontier Model 时代，Multi-Agent 正从 2024 年的最佳实践，悄悄变成 2026 年的过度工程—— 一份基于 Respan AI 生产级 Agent 重写的对照实验报告。

Source: respan.ai/blog
Author: Marcus Huang
Published: 2026-05-05
Verified: Two-pass fact-check

— The Argument in Brief

模型已经强到能在完整上下文里端到端做完任务。拆开它，反而是在围绕一个已经消失的限制做架构。

三个维度全胜

同一模型、同一参数、唯一变量是架构。Tool-Use Efficiency +28.8%，Helpfulness +16.0%，Grounding +9.6%。

Architecture > Prompt

V2 在没人教的情况下，自己学会了不确定时去调用 docs_search。这不是 prompt engineering 的结果，是 loop 留出的空间。

判断标准

如果你的 agents 之间在传递 context，而不是做truly independent work——你可能只需要一个有完整 context 的 loop。

§I

Background · The Subject of the Rewrite

Respan 把自家产品的 Agent 当作实验对象。

Respan 是一个 agent observability 与 evals 平台——提供 tracing、evaluator pipelines、experiment comparison 等能力。他们的产品里内嵌了一个 AI agent，帮用户操作平台功能：查日志、建 evaluator、跑实验、配置 automation。

这次重写的对象，就是这个内嵌 agent。不是用户拿去做事的 agent，是 Respan 自己做 dogfooding 的实验对象。所以他们能做严格对照——同一个模型、同一组参数、同一个 evaluation slate，唯一变量是架构。

这种"自家平台 dogfooding"的设定让数据具备最大可对比性，但也带来了局限：sample size = 1，且 Respan 是 evals 平台的销售方，文章兼具 case study 与产品推广双重属性。原文未披露具体使用的 frontier model 名称，只说 "same model and settings"。

§II

V1 · Router + 4 Specialists

每一次 handoff，都是一次有损压缩。

V1 是经典的 2024 multi-agent pattern：顶层一个 router agent（约 10K char prompt）读用户消息，分发给四个领域 specialist——logs / evaluators / automations 等，每个 specialist 自带 50K char 左右的 focused prompt 和 narrow tool set。Router 拿 specialist 的返回结果决定下一步。

FIG. 01 V1 — Router pattern (multi-agent) 5 prompts · ~210K char total

三个结构性问题

PROB · 01

Context collapses at every handoff.

Sub-agent 作为 tool 被调用时，router 只看到 specialist 返回的摘要——完整对话、推理链、中间决策都被压成一段话。

用户视角：一个 "create an evaluator" 请求 → 一串 tool calls → 一句 "I've created it"。中间的 reasoning 全没了。

PROB · 02

围绕已经消失的限制做架构。

2024 年模型弱，narrow each agent's surface 是对的；2026 年 frontier model 已能在长上下文下端到端完成任务。围绕已不存在的限制做架构 = 纯开销。

模型需要的是 full context，不是 isolation。这是结论里最违反 2024 年直觉的一句。

PROB · 03

Five prompts, five blast radii.

加一个新 tool 要改 router、改对应 specialist、改路由规则。五个 surface 中任意一个的 typo 都能 ship 一个 regression。

维护成本不是线性增长——是 5 倍 surface area，5 倍 coin flip。

§III

V2 · Single Loop + Two-Tier Tools

一个 agent，一个 prompt，完整上下文。

V2 砍掉了 router 与所有 specialist。一个 agent 在一个连续 reasoning chain 里决定每一步 action，直到任务完成——同模型、同参数，唯一变量是架构。

但"给 agent 完整 context"的代价是 resting context 暴增。让 single loop 实际可行的关键，是 two-tier tool loading——核心工具常驻，长尾工具藏在 search 后面，按需拉 schema。

FIG. 02 V2 — Single loop with two-tier tool catalog 1 prompt · 21 core tools · ~70 long-tail behind search

六项关键设计

D.01Two-tier tool loading

启动加载 21 个 core tools（log_* / dataset_* / experiment_*），约 70 个 long-tail tools 放在 tool_search 后面，按需拉 schema。

同覆盖面 / 更小 resting context

D.02Tool-namespace grouping

按领域分组（evaluators / workflows / datasets / prompts）。Agent 先选 namespace 再选 tool。

Argument shape 正确率提升，尤其 ID 混淆场景（id vs workflow_id）

D.03Task tools 自组织

task_create / task_update 让 agent 在可见位置规划多步工作。

不用把计划全压在 reasoning tokens 里

D.04List-no-match · 问，不编

notification_method_list 返回结果中无匹配项时问用户，不静默创建。

消除 hallucination 类 bug

D.05Async-aware

长操作（experiments / dataset imports）启动后报告 "running async"，不在同一 turn 里 poll。

消除 "说完成了但还在跑" 类 bug

D.06ID asymmetry hard rules

"experiment_create 要 version PK 不是 family ID" 写进 prompt + diagnose-not-retry pattern。

消除最频繁的 tool call 错误

§IV

Evaluation · Two-Layer Regression Net

没有 regression net，每次 prompt 改动都是 coin flip。

Respan 用自家平台 dogfooding——dataset 从 production traces 拉，evaluator pipeline 自建，experiment 在同一 slate 上对比 V1 vs V2。三个 evaluator 全部 1-100 strictness-anchored 打分，judge 是 claude-haiku-4-5。

三个 Evaluator

Helpfulness & Completeness

最终消息是否回答了问题？是否真正执行了 action？还是停在 "Want me to proceed?"

停在确认时 cap 在 40。

Tool-Use Efficiency

按问题复杂度分级，惩罚冗余调用——重复 create、scratchpad spam、无 filter 变化的重复 list。

奖励 direct paths。

Hallucination & Grounding

提取最终消息中每个具体 claim（数字、ID、资源名），检查是否可追溯到 tool output。

编造 UUID 重罚。

多数 decent agent runs 落在 40-70 区间。80+ 仅当 ground truth 的每个 must-have 都命中。

Internal Probes

— Fixed · Run on every prompt change

每次 prompt 变更都跑的固定题集，覆盖四类 bug：

Taxonomy　evaluator vs grader vs pipeline 是否区分正确？
Actions　多步 create/update 流程能否端到端执行？
Cross-domain　ID 纪律是否跨领域传递？
Honest-failure　不支持的功能是否会编造 trigger type？

OOD Customer Questions

— Held out · Never in regression net

从 support inbox 提炼的真实客户问题，故意不放进 regression net，保持 novel。用于验证 internal slate 的改进是否泛化到未预见的问题。

"What's my current monthly request volume and how is it trending?"
"我的错误率今早飙升，找出失败的日志告诉我原因。"

§V

The Data · V1 vs V2 head-to-head

三个维度全部上升，同模型，同参数。

Internal Slate

Judge: claude-haiku-4-5 · Scale 1-100

Tool-Use Efficiency

V1 · 43.3

V2 · 55.8

+12.5+28.8 % Δ

Helpfulness & Completeness

V1 · 50.1

V2 · 58.1

+8.0+16.0 % Δ

Hallucination & Grounding

V1 · 55.6

V2 · 61.0

+5.3+9.6 % Δ

Latency / turn (s)

V1 · 19.8s

V2 · 38.8s

+18.9s~ 2× slower

Latency 翻倍是结果不是失败：V2 真的端到端执行了 action。V1 的"快"大量来自停在 "Want me to proceed?" 没真正干活——这种快是用户成本，不是用户价值。

同样的 pattern 在 OOD 真实客户问题上保持，Helpfulness & Completeness 增益最显著——在真实场景里，"停在确认" 等于 "客户没拿到想要的东西"。

文章的判断：regression net 保证已知 failure mode 不回退，OOD set 保证改进能泛化到未见问题。两层缺一不可。

§VI

Emergent Behavior · The Surprise

没人教它，它自己学会了不确定时去查文档。

V2 prompt 还在粗稿阶段时，Respan 团队观察到 agent 在做一件没人教它的事：碰到陌生请求或意外 tool error 时，自己去调 docs_search，多次查文档，验证当前 schema，确认字段期望的 ID 类型，搞清楚 tool 为什么报错。

Prompt 里没有写 "look up the docs when unsure"。是 loop 本身给了这个空间。

V1 做不到——specialist 碰到陌生错误只能返回一个字符串给 router，router 基于压缩摘要决策，没法重新进入 loop。V2 的 loop 接到 error → 读文档 → 用正确 shape 重试 → 然后才回到用户，全在一个 pass 里，状态不丢。

A clean loop with full context isn't just a tidier engineering surface. It changes what the model is capable of, because every recovery path stays open.

Respan AI · on the V2 rewrite

这不是 prompt engineering 的结果——是架构选择带来的 emergent capability。

§VII

The Boundary · When to use which

不是 "Multi-Agent 死了"，是只在真正需要 context isolation 时才拆。

Respan 的论断有边界——文章明确说 "both patterns are valid"。判断框架核心一句：如果 agents 之间在传递 context 而不是做 truly independent work，就该合回一个 loop。

A · 合回 Single Loop

When to collapse

Agents 之间在 传递 context 而不是做独立工作
模型能力足以端到端完成整个任务
当前系统是 2024 年设计的 multi-agent
需要 debuggability 与可见 reasoning chain

B · 保持 Multi-Agent

When to split

Agents 在做 truly independent work
各 agent 不需要传递 context / 共享状态
单 loop 的 prompt blast radius 已不可控
任务可以在并行中获得真实加速

注：原文未列出 multi-agent 适用条件清单，上表是基于其论述的提炼。原文核心 trade-off 维度：context fidelity / prompt blast radius / latency / reasoning visibility。

Tool Loading 是 Single Loop 能 Work 的关键——不是 "给 agent 所有工具然后祈祷"，是 core set always present + long tail behind search。这是必须的前置工程。

Regression Net 是 Agent Rewrite 的最小可行 Eval——fixed internal probes（覆盖已知 failure mode）+ OOD real customer questions（验证泛化）。两层缺一不可。

从 五个 Agent 砍到一个 Loop。

模型已经强到能在完整上下文里端到端做完任务。拆开它，反而是在围绕一个已经消失的限制做架构。

三个维度全胜

Architecture > Prompt

判断标准

Respan 把自家产品的 Agent 当作实验对象。

每一次 handoff，都是一次有损压缩。

三个结构性问题

Context collapses at every handoff.

围绕已经消失的限制做架构。

Five prompts, five blast radii.

一个 agent，一个 prompt，完整上下文。

六项关键设计

没有 regression net，每次 prompt 改动都是 coin flip。

三个 Evaluator

Helpfulness & Completeness

Tool-Use Efficiency

Hallucination & Grounding

Internal Probes

OOD Customer Questions

三个维度全部上升，同模型，同参数。

Internal Slate

没人教它，它自己学会了不确定时去查文档。

不是 "Multi-Agent 死了"，是只在真正需要 context isolation 时才拆。

When to collapse

When to split

从五个 Agent
砍到一个 Loop。