40 万次会话证明,懂行比会写代码重要
Anthropic 在隐私保护下分析了约 23.5 万人、约 40 万次 Claude Code 交互式会话(2025 年 10 月至 2026 年 4 月)。结论:人决定「做什么」,agent 决定「怎么做」;一次会话成不成,更多取决于对所解决问题的理解深度,而不是会不会编程。下面这两个数,是整篇研究的支点。
研究把每次会话归入九种工作模式中最贴合的一种。约 56% 的会话是在写/修/测代码;17% 在运维软件;14% 在规划或探索;13% 在做数据分析或写非代码文档。
注:研究把规划(6%)和理解(8%)合称「规划或探索」(14%),数据分析(7%)和写作(6%)合称「分析或散文」(13%)。分类器用 Claude Sonnet 4.6,与自动遥测(代码是否有增删)的一致度超过 90%。
研究训练了一个分类器,把会话里每个有意义的决策分为规划决策(做什么、用什么方案、什么算完成)和执行决策(改哪个文件、写什么代码、运行什么命令),再判断归谁。下图展示的不只是均值,还有跨会话的分布。
中位数:人做约 70% 规划决策,只做约 20% 执行决策。怎么做这件事,大部分交给了 agent。
动作这一面也连着同一条线。一次典型会话约 4 个回合,用户每发一条 prompt,平均触发 Claude 约 10 个动作(有时超过 100 个),每个回合产出约 2400 字。当用户自己掌握执行权(>80% 执行决策),Claude 每回合只做约 8 个动作;当 Claude 接管规划(>80% 规划决策),它每回合做约 16 个动作。
People decide what to build, and the agent decides how to build it.— Anthropic《Agentic coding and persistent returns to expertise》 "
研究让模型从每条转录里给用户在该任务上的专长打分,五档:新手到专家。判断依据是三个信号:用户给指令时措辞有多精确、他要求 Claude 验证什么、以及究竟是用户在纠正 Claude 还是 Claude 在纠正用户。这个「专长」跟职业头衔无关,它是任务级的。
一个资深工程师第一次问 Rust 问题,在 Rust 这个任务上就是初学者。
一个从没用过 Python 的会计,如果能准确告诉 Claude 对账脚本必须执行哪些规则、还能发现它在月末结账时处理错的边界情况,那么他在这个任务上就是专家。
把工作类型、任务价值、月份、职业、模型代际都控制住做回归后,趋势依然显著:每升一个专长档位,动作约 +9%、输出约 +13%(p < 0.001)。这个差距在每一种工作类型、每一个任务价值档位里都存在。
研究用两套基于转录的度量:判定成功(分类器判断有没有完成想做的事)和更严的已验证成功(既被判定成功、又有硬证据:对得上的 git 提交和 PR、测试通过、或用户明确肯定)。跨所有度量,结论一致:专长越高越可能成功。大部分增益集中在低档区间,从新手到中级的差距比从中级到专家大。
新手放弃率 19% vs 其他人 5-7%。最缺经验的用户在受阻时更容易直接放弃。专长的一部分价值,就是把 agent 朝正确方向引导、从报错和误解里恢复的能力。
研究从转录推断职业(23 大类),并明确要求不把「在写代码」本身当成「从事编程职业」的证据。一个律师写脚本批量标记合同里缺失的条款,会被归进法律类职业。
七个月里,会话的工作构成变了不少。修坏代码的占比从 33% 降到 19%,几乎砍半。腾出来的份额给了围绕代码的那些工作。
任务本身也变得更值钱。研究用「这件工作拿到自由职业市场上要花多少钱」来近似经济价值(用真实招聘数据校准)。按这个口径,单次会话的平均估值涨了约 27%(官方关键发现里概述为约 25%);构建类涨约 43%,运维约 34%,修复约 32%。研究提醒这些价格估计很粗,主要用于时间维度的比较。
研究把整体图景概括为:agentic coding 在放大某些知识和技能的同时,替代掉了另一些。增益主要来自「胜任」而非「精通」,对一个领域有可用的把握就能拿到大部分收益,深度专精在此之上只多加一点点。
研究声明的局限:测不到现实世界结果(代码后来到底用了还是丢了);排除掉的非交互式用法本身占了相当大一块;所有分类依赖模型读转录(附录显示分类器与独立遥测吻合、与强参照模型多数一致,但大规模验证仍难)。
anthropic.com · 2026-06-16 · Economic Research(Zoe Hitzig、Maxim Massenkoff、Eva Lyubich、Ryan Heller、Peter McCrory)。本文全部论点、数字、定义、引用均出自此文。所有数据均为 Anthropic 自报,外部无法独立复核。分类器使用 Claude Sonnet 4.6;数据排除第三方 IDE、SDK 及 claude -p 非交互式用法。Figure 5 中「入门/高级」两档的成功率为基于相邻档位 +9%/+13% 回归系数的合理插值(原文只给了新手/中级+/专家三组具体数字),已标注为近似值。