Anthropic 经济研究 · 40 万次 Claude Code 会话 · 2026-06-16

AI 是个人能力的放大器

40 万次会话证明，懂行比会写代码重要

Anthropic 在隐私保护下分析了约 23.5 万人、约 40 万次 Claude Code 交互式会话（2025 年 10 月至 2026 年 4 月）。结论：人决定「做什么」，agent 决定「怎么做」；一次会话成不成，更多取决于对所解决问题的理解深度，而不是会不会编程。下面这两个数，是整篇研究的支点。

按职业划线

7 个点以内

产出代码的会话里，十大职业群成功率都落在软件工程师的 7 个百分点以内。编程背景几乎不决定成败。

按专长划线

2 倍多

专家档达到已验证成功的频率是新手档的两倍多。领域专长才决定成败。

01 · 九种工作模式

人们用 Claude Code 做什么

研究把每次会话归入九种工作模式中最贴合的一种。约 56% 的会话是在写/修/测代码；17% 在运维软件；14% 在规划或探索；13% 在做数据分析或写非代码文档。

Figure 1 · 九种工作模式占比（静态截面）

25%

26%

17%

构建新功能 25% 修复 26% 测试与编排 5% 运维软件 17% 理解系统 8% 规划 6% 数据分析 7% 写作/文档 6%

注：研究把规划(6%)和理解(8%)合称「规划或探索」(14%)，数据分析(7%)和写作(6%)合称「分析或散文」(13%)。分类器用 Claude Sonnet 4.6，与自动遥测（代码是否有增删）的一致度超过 90%。

02 · 分工

人决定做什么，agent 决定怎么做

研究训练了一个分类器，把会话里每个有意义的决策分为规划决策（做什么、用什么方案、什么算完成）和执行决策（改哪个文件、写什么代码、运行什么命令），再判断归谁。下图展示的不只是均值，还有跨会话的分布。

Figure 2 · 规划/执行决策归谁（分布，含中位数与四分位）

人做的规划决策占比

~70%

人做的执行决策占比

~20%

中位数：人做约 70% 规划决策，只做约 20% 执行决策。怎么做这件事，大部分交给了 agent。

动作这一面也连着同一条线。一次典型会话约 4 个回合，用户每发一条 prompt，平均触发 Claude 约 10 个动作（有时超过 100 个），每个回合产出约 2400 字。当用户自己掌握执行权（>80% 执行决策），Claude 每回合只做约 8 个动作；当 Claude 接管规划（>80% 规划决策），它每回合做约 16 个动作。

People decide what to build, and the agent decides how to build it.

— Anthropic《Agentic coding and persistent returns to expertise》 "

03 · 什么是专长

任务级的，跟头衔无关，而且直接换来更多产出

研究让模型从每条转录里给用户在该任务上的专长打分，五档：新手到专家。判断依据是三个信号：用户给指令时措辞有多精确、他要求 Claude 验证什么、以及究竟是用户在纠正 Claude 还是 Claude 在纠正用户。这个「专长」跟职业头衔无关，它是任务级的。

研究给的两个例子

一个资深工程师第一次问 Rust 问题，在 Rust 这个任务上就是初学者。

一个从没用过 Python 的会计，如果能准确告诉 Claude 对账脚本必须执行哪些规则、还能发现它在月末结账时处理错的边界情况，那么他在这个任务上就是专家。

Figure 3 · 每条 prompt 触发的 Claude 动作数与输出字数（五个专长档位）

新手

~600字

入门

~1100字

+9%/档

中级

~1700字

+13%/档

高级

~10

~2400字

专家

~12

~3200字

5× 产出

把工作类型、任务价值、月份、职业、模型代际都控制住做回归后，趋势依然显著：每升一个专长档位，动作约 +9%、输出约 +13%（p < 0.001）。这个差距在每一种工作类型、每一个任务价值档位里都存在。

04 · 专长的回报

越懂行越容易成功，也越能从坑里爬出来

研究用两套基于转录的度量：判定成功（分类器判断有没有完成想做的事）和更严的已验证成功（既被判定成功、又有硬证据：对得上的 git 提交和 PR、测试通过、或用户明确肯定）。跨所有度量，结论一致：专长越高越可能成功。大部分增益集中在低档区间，从新手到中级的差距比从中级到专家大。

Figure 5a · 按五档专长划分的会话结局

新手

15%

62%

23%

入门

24%

64%

12%

中级

28%

63%

高级

31%

61%

专家

33%

59%

已验证成功部分成功失败

Figure 5b · 遇到麻烦的会话，最后结局如何

新手

56%

21%

19%放弃

中级

10%

71%

13%

专家

15%

66%

14%

已验证成功部分成功失败放弃（零行代码）

新手放弃率 19% vs 其他人 5-7%。最缺经验的用户在受阻时更容易直接放弃。专长的一部分价值，就是把 agent 朝正确方向引导、从报错和误解里恢复的能力。

05 · 职业 vs 专长

编码背景正在贬值：十大职业都在 7 个点以内

研究从转录推断职业（23 大类），并明确要求不把「在写代码」本身当成「从事编程职业」的证据。一个律师写脚本批量标记合同里缺失的条款，会被归进法律类职业。

Figure 6 · 十大职业的已验证成功率（产出代码的会话）

管理类

~35%

计算机与数学（含软件工程）

34%

商业与金融运营

~32%

生命/自然/社会科学

~31%

艺术/设计/媒体

~31%

教育培训

~30%

法律类

~30%

建筑与工程

~29%

销售与相关

~29%

医疗保健

~28%

管理类略高于软件工程：可能反映了管理技能本身能迁移到「指挥 agent」上，也可能部分来自度量方式（已验证成功部分依赖转录里的明确确认，管理者也许更习惯在拿到结果时说出来）。在更宽松的「至少部分成功」口径下，两组差距只有 89% vs 88%。

06 · 工作在变

debug 占比砍半，任务估值涨了 27%

七个月里，会话的工作构成变了不少。修坏代码的占比从 33% 降到 19%，几乎砍半。腾出来的份额给了围绕代码的那些工作。

Figure 4 · 工作构成变迁 2025-10 → 2026-04（时序面积）

修坏代码（33% → 19%）运维软件（14% → 21%）写文档 + 数据分析（~10% → ~20%）

任务本身也变得更值钱。研究用「这件工作拿到自由职业市场上要花多少钱」来近似经济价值（用真实招聘数据校准）。按这个口径，单次会话的平均估值涨了约 27%（官方关键发现里概述为约 25%）；构建类涨约 43%，运维约 34%，修复约 32%。研究提醒这些价格估计很粗，主要用于时间维度的比较。

07 · 招聘市场的同一条线

换一个数据源，同样指向资深与懂 AI 的人

前面六节都是会话内的证据，来自 Anthropic 的 40 万次会话。招聘市场是另一个数据源。Indeed 旗下 Hiring Lab 在 2026 年 7 月的一份分析里，观察到软件开发岗位的招聘出现了反弹，而这个反弹几乎全部集中在资深、懂 AI 的岗位上。这两个来源口径不同（一个看会话内的成败，一个看劳动力市场的招聘量），指向的却是同一件事：值钱的是资深、懂行的那部分人。

Figure 7 · 自 Claude Code 发布（2025-02 底）以来的招聘量变化（美国，Indeed）

软件开发岗位

+15%

整体招聘岗位

−7%

软件开发岗位在整体招聘继续下滑（−7%）时逆势涨了近 15%（原文 “almost 15%”）。反弹和 Claude Code 等 agentic AI 工具集中出现的时点重合，但 Hiring Lab 明确说明相关不等于因果。

这个反弹极度集中

2025 年 5 月到 2026 年 5 月，软件开发岗位净增量里 71% 来自资深岗，37% 来自标题里带 AI 的岗（两类有重叠）。也就是说，需求涨的是「能和 AI 一起干活的有经验的人」，不是所有软件岗普涨。Hiring Lab 说这可能是一次偏向资深的技术变革（seniority-biased technological change），和此前关于 AI 更冲击入门岗的研究一致。

研究还给了两处必须一并读的背景，否则容易把回暖看得过头。第一，反弹的起点很低：即便涨了近 15%，软件开发岗位仍比疫情前低约 27.5%，而整体招聘量基本回到了 2020 年 2 月的水平。第二，AI 暴露度和招聘量的关系在这两年发生了翻转：2022 到 2026 年，越暴露于 AI 的职业（含软件开发）跌得越狠；而到了 2025 到 2026 年，越暴露于 AI 的职业反而反弹得越猛。标题里的「从摧毁到创造」，说的就是这个关系的翻转。

Hiring Lab 强调这些是初步证据，反弹背后还有 AI 互补性之外的多种因素；「标题里带 AI」这类信号也正在从软件开发扩散到其他白领职业。这一节整理自单一第三方来源，与前六节的 Anthropic 会话数据口径不同，并置阅读、互为印证，不作合并推断。

08 · 接下来看什么

研究留了两个动态信号，和几条诚实的局限

研究把整体图景概括为：agentic coding 在放大某些知识和技能的同时，替代掉了另一些。增益主要来自「胜任」而非「精通」，对一个领域有可用的把握就能拿到大部分收益，深度专精在此之上只多加一点点。

值得关注的信号 01

专长的回报会不会下降

如果「专长回报」随时间开始下降，说明模型开始供给用户现在还得自己带进来的那部分判断力，收益正从领域专家向更广人群扩散。

值得关注的信号 02

非软件职业的成功比例会不会继续涨

如果软件职业以外的人成功完成编码会话的比例继续上升，可能意味着「写软件」正在变成各行各业日常工作的一部分，而不再是某一个职业的专属产物。

研究声明的局限：测不到现实世界结果（代码后来到底用了还是丢了）；排除掉的非交互式用法本身占了相当大一块；所有分类依赖模型读转录（附录显示分类器与独立遥测吻合、与强参照模型多数一致，但大规模验证仍难）。

来源说明

两个来源，各自口径，忠实还原

官方Agentic coding and persistent returns to expertise

anthropic.com · 2026-06-16 · Economic Research（Zoe Hitzig、Maxim Massenkoff、Eva Lyubich、Ryan Heller、Peter McCrory）。第 01–06 与 08 节的全部论点、数字、定义、引用均出自此文。所有数据均为 Anthropic 自报，外部无法独立复核。分类器使用 Claude Sonnet 4.6；数据排除第三方 IDE、SDK 及 claude -p 非交互式用法。Figure 5 中「入门/高级」两档的成功率为基于相邻档位 +9%/+13% 回归系数的合理插值（原文只给了新手/中级+/专家三组具体数字），已标注为近似值。

第三方AI and Job Postings: From Destruction to Creation?

hiringlab.org（Indeed Hiring Lab）· 2026-07-08 · Guillermo Gallacher。第 07 节「招聘市场」的全部数字（软件岗 +15%、整体 −7%、资深 71%、AI 标题 37%、低于疫情前 27.5%）均出自此文。这是第三方分析，与 Anthropic 会话数据口径不同（劳动力市场招聘量 vs 会话内成败），本文并置引用、不作合并推断。作者本人标注为初步证据，且强调相关不等于因果。