Anthropic Frontier Red Team · 机器人实验 · 2026-06

当 Claude 自己操控机器狗

Anthropic 红队让 Opus 4.7 在无人协助下重跑去年的机器狗实验。在所有去年人类完成过的任务上，它比最快的人类团队快约 20 倍；但真正需要实时控制的「把球推回起点」，它仍未能做到。这两件事放在一起，标出了当前 LLM 操控物理设备的能力边界所在。

核心发现

约 20 倍

Opus 4.7 全自主，在四个共同任务上比最快的人类队（Team Claude）还快这么多

全程耗时

12:07

模型独立跑完五个任务的平均耗时；去年同样这套，人类一队要 264 分钟

01 · 起点

先厘清一个命名陷阱

「Project Fetch」这个名字下有两层「phase」，容易混淆。读这篇之前，先把它们分开。

第一层是整个项目的两轮研究。第一轮在 2025 年 8 月做、11 月发布，是一场人机对照实验。第二轮在 2026 年 6 月发布，标题就叫《Project Fetch: Phase two》，让模型全自主重跑。

第二层是第一轮实验内部的三个递进阶段，原文也叫 Phase One / Two / Three：先用手柄热身，再放下手柄自己写程序连传感器，最后让机器狗自主取球。

本文讲的是项目的第二轮研究。凡提到第一轮实验内部那三个阶段，都会写明「第一轮的某阶段」，不与项目层面的「第二轮」混用。

背景

第一轮实验在测什么

第一轮的核心问题是：前沿模型能不能越过电脑屏幕、影响物理世界。机器人是其中一条路径。红队用的是 uplift study（增益研究）这套方法：把人随机分两组，一组能用 AI、一组不能，比较任务表现的差距，差距就是 AI 带来的「增益」。这套方法他们在生物风险研究里用得很多。

他们找了 8 名没有机器人背景的 Anthropic 研究员，随机分成四人一组的 Team Claude 和 Team Claude-less，让两队给一只现成的四足机器人（原文称 robodog）编程去取沙滩球。结论是显著增益：两队都完成的任务上，Team Claude 用时约为另一队的一半；Team Claude 完成 7/8 个任务，Team Claude-less 完成 6/8；只有 Team Claude 在「全自主取球」这个最终目标上取得实质进展。

基准线

红队还做过一项前置确认：把当时最强的 Claude Opus 4.1 单独放上去，看它能不能独立完成任务。结论是明确不能。它和没有 Claude 的人类队一样，卡在了最初的「如何连接机器人」这一步。这个「4.1 独立做不了」，是理解第二轮意义的基准线。

02 · 提速

撤掉人，让模型自己干

第二轮换上 Claude Opus 4.7，去掉人类操作者，看模型能否独立完成第一轮里那些任务。

物理手柄那一步没法让模型做，所以测的是其余可以靠写代码完成的任务子集。模型在 Claude Code 里运行，开 adaptive thinking、effort 设为最大，每个目标跑三次试验。研究员的角色被压到最低：把运行 Claude Code 的笔记本插到机器狗上、输入初始 prompt、批准命令、批准模型进入下一个任务。

总的结论，原文写得很直接：「凡是去年至少有一个人类队完成过的任务，Opus 4.7 都至少快十倍。」

逐任务对照。把两支人类队和 Opus 4.7 在每个任务上的耗时摆在一起，这五个任务正好对应第一轮实验内部的 Phase 2（编程控制）和 Phase 3（自主操作）：

任务	Claude-less	Team Claude	Opus 4.7
连接视频摄像头Phase 2	165 分*	64 分	5:57
连接 lidar 传感器Phase 2	154 分	35 分	0:56
写程序控制机器狗Phase 2	15 分	40 分	1:07
定位并画出路径Phase 3	27 分	42 分	1:34
检测沙滩球Phase 3	未完成	83 分	2:32
全部五个任务合计	—	264 分	12:07

Opus 为三次试验平均（min:sec）。差值按每个任务上更快的那支人类队算，只计入两轮都完成的任务。*视频任务 Team Claude-less 是在得到提示后才完成的。一个细节值得留意：写控制程序这个任务，Team Claude-less（15 分）反而比 Team Claude（40 分）快。人类在某些子任务上确实更快，有 Claude 的队反而因为并行试了更多方法、写了更多代码而绕了路。

把量级差画出来。只看四个两队都完成的任务（视频、lidar、控制程序、定位）的总时长，差距是数量级的：

Team Claude-less

361 分

Team Claude（最快人类队）

181 分

Opus 4.7 单独

9:35

四个共同任务总耗时。Opus 4.7 比 Team Claude-less 快 37.7 倍，比 Team Claude 快 18.9 倍，条几乎看不见，正是「快一个数量级」的样子。

又快又省。代码量上同样悬殊：Opus 4.7 做到了和两支人类队一样好甚至更好，写的代码却比 Team Claude 少了近十倍。

Team Claude

10,309

Team Claude-less

1,136

Opus 4.7 单独

1,045

代码行数。Opus 4.7 数字来自唯一有代码量记录的那次试验。

质量上也有差别。人类在「用哪种方式连接机器狗的传感器」上反复纠结，Opus 4.7 能很快锁定最佳路径；它写的代码很多一次就能跑通，这是第一轮两支人类队都做不到的。它也并非全无缺陷：默认用了一个过时的物体检测算法，但仍能规避该问题、找到有效解法。

红队特意强调一句，和第一轮一样：这些进步不是专门针对机器人能力做优化的结果。它来自更通用的规模化（general scaling），和 LLM 历史上很多能力一样，没人专门去训它操控机器狗。

03 · 短板

恰恰栽在「fetch」本身

模型做不好的，恰恰是 Project Fetch 名字里那个「fetch」动作：精确地把沙滩球推回起点。

红队的描述很具体。人类用手、加上一点练习，就能操控机器狗把沙滩球轻轻顶回起点那块假草坪。这需要一种快速闭环的能力：判断球有没有偏离、这个偏差和上一条指令是什么关系、球现在在哪、接下来怎么调整输入才能把球推得更准。

“ ”

a kind of closed loop at which people excel (at least after making some mistakes and learning from them) 一种人类擅长的闭环，至少在犯几次错、学会之后。Opus 4.7 在这一步难以把握其中的微妙之处：它能把机器人移到球后面、摆出顶球的位姿，但控制效果很差，和当时的人类参与者一样，没能成功。

Anthropic Frontier Red Team · Project Fetch: Phase two

值得注意的是另一个对照：第一轮志愿者里有一位机器人经验更丰富的研究员，他成功写出了自主取球的程序。红队据此判断，给现在这代 Claude 更多时间和额外的脚手架，很可能也能做到同样的事。他们接下来要观察的，是模型能否用它在其他任务上展现的同样的速度和可靠性，来完成这最后一步。

原文

「With more time and additional scaffolding, we think it is very likely that current generations of Claude could do the same.」

04 · 轨迹

增益先行，自主随后

把两轮放在一起看，能看到一条清楚的轨迹。

2025 · 第一轮

Opus 4.1

模型单独上场连机器人都连不上，价值体现在「帮人」。有 Claude 的队比没有的队快一倍。

2026 · 第二轮

Opus 4.7

不到一年后，模型已能无人协助地独立完成那批任务，还比最快的人类队快约 20 倍。

红队在第一轮文章里就埋下了这个判断：增益往往先于自主，今天能帮人做的，明天常能自己做。第二轮正是这句话的一次兑现。他们用编码本身做类比：程序员早已不再只把代码片段丢给 AI 调试，而是把任务交给模型、让它自己写代码。

“ ”

We are plausibly entering the early era of physical agentic AI. 我们很可能正进入物理 agentic AI 的早期阶段。红队同时克制地补了一句：「This doesn't mean that LLMs have now solved robotics. Far from it.」这次实验里的任务，都还没触及机器人控制中更难的底层部分。

Anthropic Frontier Red Team · Project Fetch: Phase two

红队认为变得不同的是：我们似乎离「模型能相对轻松地使用现成物理工具，至少在有限用途上」的世界近了很多。他们把这类比成 AI 当年学会用 string-replace 这类现成的软件编辑工具、从而迈向更具 agentic 的编码。

这件事被反复点出的那条规律是三段式：先是模型帮人，然后人帮模型，最后模型基本能自己完成。原文：「first, models are helpful to humans. Then, humans are helpful to models. Finally, models are largely able to do things themselves.」红队说，这个模式他们在网络安全领域见过，现在在 AI 与物理世界的交叉点上也开始成形。这条线还和他们监控 AI 自动化研发潜力的工作挂钩，属于 Anthropic Responsible Scaling Policy 里的一个能力阈值。

05 · 机理

实时控制为什么比写代码难

本节是分析，不是原文结论。 以下基于控制理论与机器人学常识，用来解释「为什么模型擅长前面那些任务、却受阻于推球这一步」。Anthropic 原文只说到「推球是人类擅长的闭环、Claude 控制得糟」这一层，并未展开下面的机理。

理解这件事的关键，是看清模型做得好的那些任务和它受阻的那个任务，本质上不是同一类。前者（连传感器、选接口方案、写识别球的程序、规划路径）都是「想清楚就能一次产出」的认知任务，可以离线想透、写成代码、跑一遍验证对错，正是 LLM 的主场。而「把沙滩球精确推回起点」是另一类：连续闭环控制，没法靠一次产出交差，要在物理反馈下反复地看、反复地微调。难点至少有三层。

时间尺度对不上

物理控制的反馈环通常要几十到几百赫兹，每秒纠正几十上百次；而 LLM 推理一次是秒级的。用一个推理要好几秒的回路去实时纠正一个正在地上滚的球，节奏在根本上就无法匹配。这与它写代码时「可以从容推敲」的宽松约束正好相反。

接触动力学是非线性的

圆球、地面摩擦、机器狗顶球的那个接触点，都是强非线性的。轻微的接触，球可能纹丝不动，也可能突然窜出并偏离方向。这种「接触加滚动」的物理出了名地难精确建模，即便专门的机器人控制研究也难以应对。模型缺一个能可靠预判「我这么动、球会那么滚」的世界模型。

它在写控制器，不是亲手操控

原文写明没法让模型用物理手柄。所以「把球推回去」对它而言，等于要写出一个能在线自适应纠偏的控制器，也就是原文点名这次没碰的底层驱动策略（actuation policy）。这一步恰好踩在它能力边界那条线上：它会调用现成工具，但还不擅长从零写出一个好的实时控制策略。

人类却能做到，靠的是模型目前缺的三点：内化的物理直觉和本体感觉（对「使多大力、东西会怎么动」的映射是刻进身体的，不用算）；连续且低延迟的反馈回路（眼睛盯着球、手实时微调，正好配得上球滚动的节奏）；以及在几次试错里在线学习的能力（推歪两次、第三次就掌握要领，而模型在单次任务里没有这种边做边学的机制）。

和另一篇研究对得上

决定 AI 工具效用的是领域专长，不是写代码的熟练度。第一轮里能写出自主取球程序的，正是那位机器人经验更丰富的研究员。fetch 这一步缺的，本质是机器人领域的专长，而不是模型不会写代码。这也是为什么红队判断「加点脚手架」很可能就能补上。

来源说明

官方一手，忠实还原

官方Project Fetch: Phase two（第二轮）

Anthropic Frontier Red Team · 2026-06-18 · Michael Ilie, C. Daniel Freeman, Kevin K. Troy。本文速度、代码量、强弱项数据均出自此篇及其三张图表。报告 Opus 4.7 而非更强的 Mythos Preview，是因为 4.7 是实验当时最先进的非 Mythos 级模型。

官方Project Fetch: Can Claude train a robot dog?（第一轮）

Anthropic Frontier Red Team · 2025-11-12（实验 2025 年 8 月进行）。第一轮 uplift 实验、7/8 vs 6/8、Opus 4.1 基准线、「增益先行于自主」的判断均出自此篇。原始素材为英文，引文保留英文原句。「实时控制为什么比写代码难」一节为基于控制理论的分析，非原文结论，已在节内标注。样本说明：实验只两队、单日，属便利抽样，规模小。