← PLAYBOOK
Architecture Quarterly
Vol. 04 · Issue 12 May 2026 Field Note № 07 EN
Field Note № 07 · Production Rewrite

个 Agent
砍到一个 Loop。

Frontier Model 时代,Multi-Agent 正从 2024 年的最佳实践,悄悄变成 2026 年的过度工程—— 一份基于 Respan AI 生产级 Agent 重写的对照实验报告。

Author
Marcus Huang
Published
2026-05-05
Verified
Two-pass fact-check
— The Argument in Brief

模型已经强到能在完整上下文里端到端做完任务。拆开它,反而是在围绕一个已经消失的限制做架构。

01

三个维度全胜

同一模型、同一参数、唯一变量是架构。Tool-Use Efficiency +28.8%,Helpfulness +16.0%,Grounding +9.6%

02

Architecture > Prompt

V2 在没人教的情况下,自己学会了不确定时去调用 docs_search。这不是 prompt engineering 的结果,是 loop 留出的空间。

03

判断标准

如果你的 agents 之间在传递 context,而不是做truly independent work——你可能只需要一个有完整 context 的 loop。

§I
Background · The Subject of the Rewrite

Respan 把自家产品的 Agent 当作实验对象。

Respan 是一个 agent observability 与 evals 平台——提供 tracing、evaluator pipelines、experiment comparison 等能力。他们的产品里内嵌了一个 AI agent,帮用户操作平台功能:查日志、建 evaluator、跑实验、配置 automation。

这次重写的对象,就是这个内嵌 agent。不是用户拿去做事的 agent,是 Respan 自己做 dogfooding 的实验对象。所以他们能做严格对照——同一个模型、同一组参数、同一个 evaluation slate,唯一变量是架构

这种"自家平台 dogfooding"的设定让数据具备最大可对比性,但也带来了局限:sample size = 1,且 Respan 是 evals 平台的销售方,文章兼具 case study 与产品推广双重属性。原文未披露具体使用的 frontier model 名称,只说 "same model and settings"。

§II
V1 · Router + 4 Specialists

每一次 handoff,都是一次有损压缩

V1 是经典的 2024 multi-agent pattern:顶层一个 router agent(约 10K char prompt)读用户消息,分发给四个领域 specialist——logs / evaluators / automations 等,每个 specialist 自带 50K char 左右的 focused prompt 和 narrow tool set。Router 拿 specialist 的返回结果决定下一步。

FIG. 01 V1 — Router pattern (multi-agent) 5 prompts · ~210K char total
U USER Router ~10K char prompt specialist logs · ~50K tools specialist evaluators tools specialist automations tools specialist datasets · ~50K tools → summary only lossy compression at every handoff 5 prompts × 5 blast radii — any typo ships a regression

三个结构性问题

PROB · 01

Context collapses at every handoff.

Sub-agent 作为 tool 被调用时,router 只看到 specialist 返回的摘要——完整对话、推理链、中间决策都被压成一段话。

用户视角:一个 "create an evaluator" 请求 → 一串 tool calls → 一句 "I've created it"。中间的 reasoning 全没了。
PROB · 02

围绕已经消失的限制做架构。

2024 年模型弱,narrow each agent's surface 是对的;2026 年 frontier model 已能在长上下文下端到端完成任务。围绕已不存在的限制做架构 = 纯开销。

模型需要的是 full context,不是 isolation。这是结论里最违反 2024 年直觉的一句。
PROB · 03

Five prompts, five blast radii.

加一个新 tool 要改 router、改对应 specialist、改路由规则。五个 surface 中任意一个的 typo 都能 ship 一个 regression。

维护成本不是线性增长——是 5 倍 surface area,5 倍 coin flip。
§III
V2 · Single Loop + Two-Tier Tools

一个 agent,一个 prompt,完整上下文。

V2 砍掉了 router 与所有 specialist。一个 agent 在一个连续 reasoning chain 里决定每一步 action,直到任务完成——同模型、同参数,唯一变量是架构

但"给 agent 完整 context"的代价是 resting context 暴增。让 single loop 实际可行的关键,是 two-tier tool loading——核心工具常驻,长尾工具藏在 search 后面,按需拉 schema。

FIG. 02 V2 — Single loop with two-tier tool catalog 1 prompt · 21 core tools · ~70 long-tail behind search
U USER single loop one agent · one prompt full context continuous reasoning chain TIER 1 — CORE always loaded · 21 tools log_* dataset_* experiment_* tool_search( ) TIER 2 — LONG TAIL deferred · ~70 tools · pulled on demand every recovery path stays open

六项关键设计

D.01Two-tier tool loading
启动加载 21 个 core tools(log_* / dataset_* / experiment_*),约 70 个 long-tail tools 放在 tool_search 后面,按需拉 schema。
同覆盖面 / 更小 resting context
D.02Tool-namespace grouping
按领域分组(evaluators / workflows / datasets / prompts)。Agent 先选 namespace 再选 tool。
Argument shape 正确率提升,尤其 ID 混淆场景(id vs workflow_id
D.03Task tools 自组织
task_create / task_update 让 agent 在可见位置规划多步工作。
不用把计划全压在 reasoning tokens 里
D.04List-no-match · 问,不编
notification_method_list 返回结果中无匹配项时问用户,不静默创建。
消除 hallucination 类 bug
D.05Async-aware
长操作(experiments / dataset imports)启动后报告 "running async",不在同一 turn 里 poll。
消除 "说完成了但还在跑" 类 bug
D.06ID asymmetry hard rules
"experiment_create 要 version PK 不是 family ID" 写进 prompt + diagnose-not-retry pattern。
消除最频繁的 tool call 错误
§IV
Evaluation · Two-Layer Regression Net

没有 regression net,每次 prompt 改动都是 coin flip

Respan 用自家平台 dogfooding——dataset 从 production traces 拉,evaluator pipeline 自建,experiment 在同一 slate 上对比 V1 vs V2。三个 evaluator 全部 1-100 strictness-anchored 打分,judge 是 claude-haiku-4-5

三个 Evaluator

Helpfulness & Completeness

最终消息是否回答了问题?是否真正执行了 action?还是停在 "Want me to proceed?"

停在确认时 cap 在 40。

Tool-Use Efficiency

按问题复杂度分级,惩罚冗余调用——重复 create、scratchpad spam、无 filter 变化的重复 list。

奖励 direct paths。

Hallucination & Grounding

提取最终消息中每个具体 claim(数字、ID、资源名),检查是否可追溯到 tool output。

编造 UUID 重罚。

多数 decent agent runs 落在 40-70 区间。80+ 仅当 ground truth 的每个 must-have 都命中。

01

Internal Probes

— Fixed · Run on every prompt change

每次 prompt 变更都跑的固定题集,覆盖四类 bug:

  • Taxonomy evaluator vs grader vs pipeline 是否区分正确?
  • Actions 多步 create/update 流程能否端到端执行?
  • Cross-domain ID 纪律是否跨领域传递?
  • Honest-failure 不支持的功能是否会编造 trigger type?
02

OOD Customer Questions

— Held out · Never in regression net

从 support inbox 提炼的真实客户问题,故意不放进 regression net,保持 novel。用于验证 internal slate 的改进是否泛化到未预见的问题。

"What's my current monthly request volume and how is it trending?"
"我的错误率今早飙升,找出失败的日志告诉我原因。"

§V
The Data · V1 vs V2 head-to-head

三个维度全部上升,同模型,同参数

Internal Slate

Judge: claude-haiku-4-5 · Scale 1-100
Tool-Use Efficiency
V1 · 43.3
V2 · 55.8
+12.5+28.8 % Δ
Helpfulness & Completeness
V1 · 50.1
V2 · 58.1
+8.0+16.0 % Δ
Hallucination & Grounding
V1 · 55.6
V2 · 61.0
+5.3+9.6 % Δ
Latency / turn (s)
V1 · 19.8s
V2 · 38.8s
+18.9s~ 2× slower
Latency 翻倍是结果不是失败:V2 真的端到端执行了 action。V1 的"快"大量来自停在 "Want me to proceed?" 没真正干活——这种快是用户成本,不是用户价值。

同样的 pattern 在 OOD 真实客户问题上保持,Helpfulness & Completeness 增益最显著——在真实场景里,"停在确认" 等于 "客户没拿到想要的东西"。

文章的判断:regression net 保证已知 failure mode 不回退,OOD set 保证改进能泛化到未见问题。两层缺一不可

§VI
Emergent Behavior · The Surprise

没人教它,它自己学会了不确定时去查文档

V2 prompt 还在粗稿阶段时,Respan 团队观察到 agent 在做一件没人教它的事:碰到陌生请求或意外 tool error 时,自己去调 docs_search,多次查文档,验证当前 schema,确认字段期望的 ID 类型,搞清楚 tool 为什么报错。

Prompt 里没有写 "look up the docs when unsure"。是 loop 本身给了这个空间。

V1 做不到——specialist 碰到陌生错误只能返回一个字符串给 router,router 基于压缩摘要决策,没法重新进入 loop。V2 的 loop 接到 error → 读文档 → 用正确 shape 重试 → 然后才回到用户,全在一个 pass 里,状态不丢。

A clean loop with full context isn't just a tidier engineering surface. It changes what the model is capable of, because every recovery path stays open.

Respan AI · on the V2 rewrite

这不是 prompt engineering 的结果——是架构选择带来的 emergent capability。

§VII
The Boundary · When to use which

不是 "Multi-Agent 死了",是只在真正需要 context isolation 时才拆

Respan 的论断有边界——文章明确说 "both patterns are valid"。判断框架核心一句:如果 agents 之间在传递 context 而不是做 truly independent work,就该合回一个 loop。

A · 合回 Single Loop

When to collapse

  • Agents 之间在 传递 context 而不是做独立工作
  • 模型能力足以端到端完成整个任务
  • 当前系统是 2024 年设计的 multi-agent
  • 需要 debuggability 与可见 reasoning chain
B · 保持 Multi-Agent

When to split

  • Agents 在做 truly independent work
  • 各 agent 不需要传递 context / 共享状态
  • 单 loop 的 prompt blast radius 已不可控
  • 任务可以在并行中获得真实加速
注:原文未列出 multi-agent 适用条件清单,上表是基于其论述的提炼。原文核心 trade-off 维度:context fidelity / prompt blast radius / latency / reasoning visibility。

Tool Loading 是 Single Loop 能 Work 的关键——不是 "给 agent 所有工具然后祈祷",是 core set always present + long tail behind search。这是必须的前置工程。

Regression Net 是 Agent Rewrite 的最小可行 Eval——fixed internal probes(覆盖已知 failure mode)+ OOD real customer questions(验证泛化)。两层缺一不可。