Anthropic Frontier Red Team · 机器人实验 · 2026-06

当 Claude 自己操控机器狗

Anthropic 红队让 Opus 4.7 在无人协助下重跑去年的机器狗实验。在所有去年人类完成过的任务上,它比最快的人类团队快约 20 倍;但真正需要实时控制的「把球推回起点」,它仍未能做到。这两件事放在一起,标出了当前 LLM 操控物理设备的能力边界所在。

核心发现
约 20 倍
Opus 4.7 全自主,在四个共同任务上比最快的人类队(Team Claude)还快这么多
全程耗时
12:07
模型独立跑完五个任务的平均耗时;去年同样这套,人类一队要 264 分钟
01 · 起点

先厘清一个命名陷阱

「Project Fetch」这个名字下有两层「phase」,容易混淆。读这篇之前,先把它们分开。

第一层是整个项目的两轮研究。第一轮在 2025 年 8 月做、11 月发布,是一场人机对照实验。第二轮在 2026 年 6 月发布,标题就叫《Project Fetch: Phase two》,让模型全自主重跑。

第二层是第一轮实验内部的三个递进阶段,原文也叫 Phase One / Two / Three:先用手柄热身,再放下手柄自己写程序连传感器,最后让机器狗自主取球。

本文讲的是项目的第二轮研究。凡提到第一轮实验内部那三个阶段,都会写明「第一轮的某阶段」,不与项目层面的「第二轮」混用。

背景

第一轮实验在测什么

第一轮的核心问题是:前沿模型能不能越过电脑屏幕、影响物理世界。机器人是其中一条路径。红队用的是 uplift study(增益研究)这套方法:把人随机分两组,一组能用 AI、一组不能,比较任务表现的差距,差距就是 AI 带来的「增益」。这套方法他们在生物风险研究里用得很多。

他们找了 8 名没有机器人背景的 Anthropic 研究员,随机分成四人一组的 Team Claude 和 Team Claude-less,让两队给一只现成的四足机器人(原文称 robodog)编程去取沙滩球。结论是显著增益:两队都完成的任务上,Team Claude 用时约为另一队的一半;Team Claude 完成 7/8 个任务,Team Claude-less 完成 6/8;只有 Team Claude 在「全自主取球」这个最终目标上取得实质进展。

基准线

红队还做过一项前置确认:把当时最强的 Claude Opus 4.1 单独放上去,看它能不能独立完成任务。结论是明确不能。它和没有 Claude 的人类队一样,卡在了最初的「如何连接机器人」这一步。这个「4.1 独立做不了」,是理解第二轮意义的基准线。

02 · 提速

撤掉人,让模型自己干

第二轮换上 Claude Opus 4.7,去掉人类操作者,看模型能否独立完成第一轮里那些任务。

物理手柄那一步没法让模型做,所以测的是其余可以靠写代码完成的任务子集。模型在 Claude Code 里运行,开 adaptive thinking、effort 设为最大,每个目标跑三次试验。研究员的角色被压到最低:把运行 Claude Code 的笔记本插到机器狗上、输入初始 prompt、批准命令、批准模型进入下一个任务。

总的结论,原文写得很直接:「凡是去年至少有一个人类队完成过的任务,Opus 4.7 都至少快十倍。」

逐任务对照。把两支人类队和 Opus 4.7 在每个任务上的耗时摆在一起,这五个任务正好对应第一轮实验内部的 Phase 2(编程控制)和 Phase 3(自主操作):

任务Claude-lessTeam ClaudeOpus 4.7
连接视频摄像头Phase 2165 分*64 分5:57
连接 lidar 传感器Phase 2154 分35 分0:56
写程序控制机器狗Phase 215 分40 分1:07
定位并画出路径Phase 327 分42 分1:34
检测沙滩球Phase 3未完成83 分2:32
全部五个任务合计264 分12:07

Opus 为三次试验平均(min:sec)。差值按每个任务上更快的那支人类队算,只计入两轮都完成的任务。*视频任务 Team Claude-less 是在得到提示后才完成的。一个细节值得留意:写控制程序这个任务,Team Claude-less(15 分)反而比 Team Claude(40 分)快。人类在某些子任务上确实更快,有 Claude 的队反而因为并行试了更多方法、写了更多代码而绕了路。

把量级差画出来。只看四个两队都完成的任务(视频、lidar、控制程序、定位)的总时长,差距是数量级的:

Team Claude-less
361 分
Team Claude(最快人类队)
181 分
Opus 4.7 单独
9:35
四个共同任务总耗时。Opus 4.7 比 Team Claude-less 快 37.7 倍,比 Team Claude 快 18.9 倍,条几乎看不见,正是「快一个数量级」的样子。

又快又省。代码量上同样悬殊:Opus 4.7 做到了和两支人类队一样好甚至更好,写的代码却比 Team Claude 少了近十倍。

Team Claude
10,309
Team Claude-less
1,136
Opus 4.7 单独
1,045
代码行数。Opus 4.7 数字来自唯一有代码量记录的那次试验。

质量上也有差别。人类在「用哪种方式连接机器狗的传感器」上反复纠结,Opus 4.7 能很快锁定最佳路径;它写的代码很多一次就能跑通,这是第一轮两支人类队都做不到的。它也并非全无缺陷:默认用了一个过时的物体检测算法,但仍能规避该问题、找到有效解法。

红队特意强调一句,和第一轮一样:这些进步不是专门针对机器人能力做优化的结果。它来自更通用的规模化(general scaling),和 LLM 历史上很多能力一样,没人专门去训它操控机器狗。

03 · 短板

恰恰栽在「fetch」本身

模型做不好的,恰恰是 Project Fetch 名字里那个「fetch」动作:精确地把沙滩球推回起点。

红队的描述很具体。人类用手、加上一点练习,就能操控机器狗把沙滩球轻轻顶回起点那块假草坪。这需要一种快速闭环的能力:判断球有没有偏离、这个偏差和上一条指令是什么关系、球现在在哪、接下来怎么调整输入才能把球推得更准。

a kind of closed loop at which people excel (at least after making some mistakes and learning from them) 一种人类擅长的闭环,至少在犯几次错、学会之后。Opus 4.7 在这一步难以把握其中的微妙之处:它能把机器人移到球后面、摆出顶球的位姿,但控制效果很差,和当时的人类参与者一样,没能成功。
Anthropic Frontier Red Team · Project Fetch: Phase two

值得注意的是另一个对照:第一轮志愿者里有一位机器人经验更丰富的研究员,他成功写出了自主取球的程序。红队据此判断,给现在这代 Claude 更多时间和额外的脚手架,很可能也能做到同样的事。他们接下来要观察的,是模型能否用它在其他任务上展现的同样的速度和可靠性,来完成这最后一步。

原文

「With more time and additional scaffolding, we think it is very likely that current generations of Claude could do the same.」

04 · 轨迹

增益先行,自主随后

把两轮放在一起看,能看到一条清楚的轨迹。

2025 · 第一轮
Opus 4.1
模型单独上场连机器人都连不上,价值体现在「帮人」。有 Claude 的队比没有的队快一倍。
2026 · 第二轮
Opus 4.7
不到一年后,模型已能无人协助地独立完成那批任务,还比最快的人类队快约 20 倍。

红队在第一轮文章里就埋下了这个判断:增益往往先于自主,今天能帮人做的,明天常能自己做。第二轮正是这句话的一次兑现。他们用编码本身做类比:程序员早已不再只把代码片段丢给 AI 调试,而是把任务交给模型、让它自己写代码。

We are plausibly entering the early era of physical agentic AI. 我们很可能正进入物理 agentic AI 的早期阶段。红队同时克制地补了一句:「This doesn't mean that LLMs have now solved robotics. Far from it.」这次实验里的任务,都还没触及机器人控制中更难的底层部分。
Anthropic Frontier Red Team · Project Fetch: Phase two

红队认为变得不同的是:我们似乎离「模型能相对轻松地使用现成物理工具,至少在有限用途上」的世界近了很多。他们把这类比成 AI 当年学会用 string-replace 这类现成的软件编辑工具、从而迈向更具 agentic 的编码。

这件事被反复点出的那条规律是三段式:先是模型帮人,然后人帮模型,最后模型基本能自己完成。原文:「first, models are helpful to humans. Then, humans are helpful to models. Finally, models are largely able to do things themselves.」红队说,这个模式他们在网络安全领域见过,现在在 AI 与物理世界的交叉点上也开始成形。这条线还和他们监控 AI 自动化研发潜力的工作挂钩,属于 Anthropic Responsible Scaling Policy 里的一个能力阈值。

05 · 机理

实时控制为什么比写代码难

本节是分析,不是原文结论。 以下基于控制理论与机器人学常识,用来解释「为什么模型擅长前面那些任务、却受阻于推球这一步」。Anthropic 原文只说到「推球是人类擅长的闭环、Claude 控制得糟」这一层,并未展开下面的机理。

理解这件事的关键,是看清模型做得好的那些任务和它受阻的那个任务,本质上不是同一类。前者(连传感器、选接口方案、写识别球的程序、规划路径)都是「想清楚就能一次产出」的认知任务,可以离线想透、写成代码、跑一遍验证对错,正是 LLM 的主场。而「把沙滩球精确推回起点」是另一类:连续闭环控制,没法靠一次产出交差,要在物理反馈下反复地看、反复地微调。难点至少有三层。

01
时间尺度对不上
物理控制的反馈环通常要几十到几百赫兹,每秒纠正几十上百次;而 LLM 推理一次是秒级的。用一个推理要好几秒的回路去实时纠正一个正在地上滚的球,节奏在根本上就无法匹配。这与它写代码时「可以从容推敲」的宽松约束正好相反。
02
接触动力学是非线性的
圆球、地面摩擦、机器狗顶球的那个接触点,都是强非线性的。轻微的接触,球可能纹丝不动,也可能突然窜出并偏离方向。这种「接触加滚动」的物理出了名地难精确建模,即便专门的机器人控制研究也难以应对。模型缺一个能可靠预判「我这么动、球会那么滚」的世界模型。
03
它在写控制器,不是亲手操控
原文写明没法让模型用物理手柄。所以「把球推回去」对它而言,等于要写出一个能在线自适应纠偏的控制器,也就是原文点名这次没碰的底层驱动策略(actuation policy)。这一步恰好踩在它能力边界那条线上:它会调用现成工具,但还不擅长从零写出一个好的实时控制策略。

人类却能做到,靠的是模型目前缺的三点:内化的物理直觉和本体感觉(对「使多大力、东西会怎么动」的映射是刻进身体的,不用算);连续且低延迟的反馈回路(眼睛盯着球、手实时微调,正好配得上球滚动的节奏);以及在几次试错里在线学习的能力(推歪两次、第三次就掌握要领,而模型在单次任务里没有这种边做边学的机制)。

和另一篇研究对得上

决定 AI 工具效用的是领域专长,不是写代码的熟练度。第一轮里能写出自主取球程序的,正是那位机器人经验更丰富的研究员。fetch 这一步缺的,本质是机器人领域的专长,而不是模型不会写代码。这也是为什么红队判断「加点脚手架」很可能就能补上。

来源说明

官方一手,忠实还原

官方Project Fetch: Phase two(第二轮)

Anthropic Frontier Red Team · 2026-06-18 · Michael Ilie, C. Daniel Freeman, Kevin K. Troy。本文速度、代码量、强弱项数据均出自此篇及其三张图表。报告 Opus 4.7 而非更强的 Mythos Preview,是因为 4.7 是实验当时最先进的非 Mythos 级模型。

官方Project Fetch: Can Claude train a robot dog?(第一轮)

Anthropic Frontier Red Team · 2025-11-12(实验 2025 年 8 月进行)。第一轮 uplift 实验、7/8 vs 6/8、Opus 4.1 基准线、「增益先行于自主」的判断均出自此篇。原始素材为英文,引文保留英文原句。「实时控制为什么比写代码难」一节为基于控制理论的分析,非原文结论,已在节内标注。样本说明:实验只两队、单日,属便利抽样,规模小。