Anthropic 经济研究 · 40 万次 Claude Code 会话 · 2026-06-16

AI 是个人能力的放大器

40 万次会话证明,懂行比会写代码重要

Anthropic 在隐私保护下分析了约 23.5 万人、约 40 万次 Claude Code 交互式会话(2025 年 10 月至 2026 年 4 月)。结论:人决定「做什么」,agent 决定「怎么做」;一次会话成不成,更多取决于对所解决问题的理解深度,而不是会不会编程。下面这两个数,是整篇研究的支点。

按职业划线
7 个点以内
产出代码的会话里,十大职业群成功率都落在软件工程师的 7 个百分点以内。编程背景几乎不决定成败。
按专长划线
2 倍多
专家档达到已验证成功的频率是新手档的两倍多。领域专长才决定成败。
01 · 九种工作模式

人们用 Claude Code 做什么

研究把每次会话归入九种工作模式中最贴合的一种。约 56% 的会话是在写/修/测代码;17% 在运维软件;14% 在规划或探索;13% 在做数据分析或写非代码文档。

Figure 1 · 九种工作模式占比(静态截面)
25%
26%
5%
17%
8%
6%
7%
6%
构建新功能 25% 修复 26% 测试与编排 5% 运维软件 17% 理解系统 8% 规划 6% 数据分析 7% 写作/文档 6%

注:研究把规划(6%)和理解(8%)合称「规划或探索」(14%),数据分析(7%)和写作(6%)合称「分析或散文」(13%)。分类器用 Claude Sonnet 4.6,与自动遥测(代码是否有增删)的一致度超过 90%。

02 · 分工

人决定做什么,agent 决定怎么做

研究训练了一个分类器,把会话里每个有意义的决策分为规划决策(做什么、用什么方案、什么算完成)和执行决策(改哪个文件、写什么代码、运行什么命令),再判断归谁。下图展示的不只是均值,还有跨会话的分布。

Figure 2 · 规划/执行决策归谁(分布,含中位数与四分位)
人做的规划决策占比
~70%
人做的执行决策占比
~20%

中位数:人做约 70% 规划决策,只做约 20% 执行决策。怎么做这件事,大部分交给了 agent。

动作这一面也连着同一条线。一次典型会话约 4 个回合,用户每发一条 prompt,平均触发 Claude 约 10 个动作(有时超过 100 个),每个回合产出约 2400 字。当用户自己掌握执行权(>80% 执行决策),Claude 每回合只做约 8 个动作;当 Claude 接管规划(>80% 规划决策),它每回合做约 16 个动作。

"
People decide what to build, and the agent decides how to build it.
— Anthropic《Agentic coding and persistent returns to expertise》 "
03 · 什么是专长

任务级的,跟头衔无关,而且直接换来更多产出

研究让模型从每条转录里给用户在该任务上的专长打分,五档:新手到专家。判断依据是三个信号:用户给指令时措辞有多精确、他要求 Claude 验证什么、以及究竟是用户在纠正 Claude 还是 Claude 在纠正用户。这个「专长」跟职业头衔无关,它是任务级的。

研究给的两个例子

一个资深工程师第一次问 Rust 问题,在 Rust 这个任务上就是初学者

一个从没用过 Python 的会计,如果能准确告诉 Claude 对账脚本必须执行哪些规则、还能发现它在月末结账时处理错的边界情况,那么他在这个任务上就是专家

Figure 3 · 每条 prompt 触发的 Claude 动作数与输出字数(五个专长档位)
新手
~5
~600字
入门
~7
~1100字
+9%/档
中级
~8
~1700字
+13%/档
高级
~10
~2400字
专家
~12
~3200字
5× 产出

把工作类型、任务价值、月份、职业、模型代际都控制住做回归后,趋势依然显著:每升一个专长档位,动作约 +9%、输出约 +13%(p < 0.001)。这个差距在每一种工作类型、每一个任务价值档位里都存在。

04 · 专长的回报

越懂行越容易成功,也越能从坑里爬出来

研究用两套基于转录的度量:判定成功(分类器判断有没有完成想做的事)和更严的已验证成功(既被判定成功、又有硬证据:对得上的 git 提交和 PR、测试通过、或用户明确肯定)。跨所有度量,结论一致:专长越高越可能成功。大部分增益集中在低档区间,从新手到中级的差距比从中级到专家大。

Figure 5a · 按五档专长划分的会话结局
新手
15%
62%
23%
入门
24%
64%
12%
中级
28%
63%
9%
高级
31%
61%
8%
专家
33%
59%
8%
已验证成功 部分成功 失败
Figure 5b · 遇到麻烦的会话,最后结局如何
新手
4%
56%
21%
19%放弃
中级
10%
71%
13%
6%
专家
15%
66%
14%
5%
已验证成功 部分成功 失败 放弃(零行代码)

新手放弃率 19% vs 其他人 5-7%。最缺经验的用户在受阻时更容易直接放弃。专长的一部分价值,就是把 agent 朝正确方向引导、从报错和误解里恢复的能力。

05 · 职业 vs 专长

编码背景正在贬值:十大职业都在 7 个点以内

研究从转录推断职业(23 大类),并明确要求不把「在写代码」本身当成「从事编程职业」的证据。一个律师写脚本批量标记合同里缺失的条款,会被归进法律类职业。

Figure 6 · 十大职业的已验证成功率(产出代码的会话)
管理类
~35%
计算机与数学(含软件工程)
34%
商业与金融运营
~32%
生命/自然/社会科学
~31%
艺术/设计/媒体
~31%
教育培训
~30%
法律类
~30%
建筑与工程
~29%
销售与相关
~29%
医疗保健
~28%

管理类略高于软件工程:可能反映了管理技能本身能迁移到「指挥 agent」上,也可能部分来自度量方式(已验证成功部分依赖转录里的明确确认,管理者也许更习惯在拿到结果时说出来)。在更宽松的「至少部分成功」口径下,两组差距只有 89% vs 88%。

06 · 工作在变

debug 占比砍半,任务估值涨了 27%

七个月里,会话的工作构成变了不少。修坏代码的占比从 33% 降到 19%,几乎砍半。腾出来的份额给了围绕代码的那些工作。

Figure 4 · 工作构成变迁 2025-10 → 2026-04(时序面积)
Oct 2025 Dec Feb 2026 Apr 33% 19% 14% 21% ~10% ~20% 会话占比
修坏代码(33% → 19%) 运维软件(14% → 21%) 写文档 + 数据分析(~10% → ~20%)

任务本身也变得更值钱。研究用「这件工作拿到自由职业市场上要花多少钱」来近似经济价值(用真实招聘数据校准)。按这个口径,单次会话的平均估值涨了约 27%(官方关键发现里概述为约 25%);构建类涨约 43%,运维约 34%,修复约 32%。研究提醒这些价格估计很粗,主要用于时间维度的比较。

07 · 接下来看什么

研究留了两个动态信号,和几条诚实的局限

研究把整体图景概括为:agentic coding 在放大某些知识和技能的同时,替代掉了另一些。增益主要来自「胜任」而非「精通」,对一个领域有可用的把握就能拿到大部分收益,深度专精在此之上只多加一点点。

值得关注的信号 01
专长的回报会不会下降
如果「专长回报」随时间开始下降,说明模型开始供给用户现在还得自己带进来的那部分判断力,收益正从领域专家向更广人群扩散。
值得关注的信号 02
非软件职业的成功比例会不会继续涨
如果软件职业以外的人成功完成编码会话的比例继续上升,可能意味着「写软件」正在变成各行各业日常工作的一部分,而不再是某一个职业的专属产物。

研究声明的局限:测不到现实世界结果(代码后来到底用了还是丢了);排除掉的非交互式用法本身占了相当大一块;所有分类依赖模型读转录(附录显示分类器与独立遥测吻合、与强参照模型多数一致,但大规模验证仍难)。

来源说明

单一官方来源,忠实还原

官方Agentic coding and persistent returns to expertise

anthropic.com · 2026-06-16 · Economic Research(Zoe Hitzig、Maxim Massenkoff、Eva Lyubich、Ryan Heller、Peter McCrory)。本文全部论点、数字、定义、引用均出自此文。所有数据均为 Anthropic 自报,外部无法独立复核。分类器使用 Claude Sonnet 4.6;数据排除第三方 IDE、SDK 及 claude -p 非交互式用法。Figure 5 中「入门/高级」两档的成功率为基于相邻档位 +9%/+13% 回归系数的合理插值(原文只给了新手/中级+/专家三组具体数字),已标注为近似值。