一个人能顶三个人,直觉推论是缩编。Anthropic 内部的做法正好相反:团队规模没动,被重排的是每个人的角色,以及团队上方的整套决策与验证机制。
当写代码不再是稀缺资源,一个直觉的推论是:既然一个人能顶三个人,团队就该缩编。Anthropic 内部的做法正好相反。团队规模没动,被重排的是每个人的角色,以及团队上方的整套决策与验证机制。
讲这件事的人是 Katelyn Lesse。她在 Stripe 带过零售工程七十多人,2025 年年中离开 Stripe 加入 Anthropic,现在领 Claude 开发者平台的工程,也是 Claude Managed Agents 这个托管服务背后的建设者。她的视角有一个别处少见的特点:既有成熟支付公司做工程组织的经验,又直接在一家前沿实验室里跑 AI-native 的团队。
这篇是「AI-native 工程组织」的第三个切面。前两篇分别讲了工作方式的重写和让 Spotify 快起来的基础设施地基。本篇的焦点是组织和角色怎么重排,以及支撑这套重排的平台架构。共同的底色三篇一致:代码基本全由 AI 生成,瓶颈从写代码挪到了审代码和做决策。真正的增量在于,当这个底色成立后,一个团队的形状、编制和职责该怎么变。
Katelyn 反复强调的一句话是:软件开发很多方面没变,也不需要变。团队仍然需要足够的人去构建、运维、长期维护系统。变的只有一件事,AI 给每个人的杠杆大了很多。
具体到团队结构,Anthropic 用的还是传统的两张披萨能喂饱的交叉职能团队:五到八个工程师,加一个工程经理、一个 PM、一个设计师。她在悉尼的 keynote 上给过一个更直白的说法,团队仍在七八个人,这个数字不是什么科学推导,更多是文化和历史沿袭,就是这个规模最合适。
规模不动,被重排的是这几个人分别在干什么。旧模型是一个 team lead、一个 PM,加四到六个只管实现的工程师。新形态里,几乎每个工程师都要能在需要时挑起 tech lead 的角色。在悉尼台上,Katelyn 和产品负责人 Angela Jiang 把新形态说得更细:一个 Team Lead,加上大约对半开的「System Designers」和「Implementers」。
同样是这批人,产出的量级不同了。原来一个八人团队同时推进一到两个项目,现在能并行四到五个。团队拥有和维护的还是同一批系统,AI 让每个人能并行执行的工作量翻了几倍。
产能被放大之后,压力会顺着流水线往下游堆,堆到那些 AI 还接不了的环节上。后面几节就是这些环节各自被压到什么程度。
产能放大之后第一个变成瓶颈的环节,是「决定该建什么」。这与很多公司的做法相反。
不少团队在 AI 铺开后是减 PM 的。OpenAI 的工程师与 PM 比例是三十比一;Telnyx、Portkey 这类公司干脆几乎不设 PM。Anthropic 的判断相反:AI 没有减少对 PM 的需求,尤其是那些真懂底层技术的 TPM,这个角色反而更重要了。
逻辑很直接。工程师出活变快之后,瓶颈从「能不能建」转到了「该不该建、建得对不对」。挑战不再是团队有没有能力做出来,而是有没有在做对的东西。在她看来,被放大的工程产能需要有人保证它被聚焦到最高影响的问题上,这正是产品管理的价值所在。
这个判断有一组独立的硬数字撑着。Anthropic 增长负责人 Amol Avasare 公开讲过,内部铺开 Claude Code 后,工程团队实际运行在有效人数的两到三倍,一个五人团队出活像十五到二十人。这些数字也解释了为什么公司在主动发岗补 PM,而不是补工程师。
用对标资深工程师的薪水去招带工程背景的 PM,等于是在说,当下真正稀缺、真正值钱的是产品决策。角色边界也在往「PM 要更技术」的方向移。Angela 在悉尼台上把话讲明了:PM 现在得更技术,不用是工程师,但技术到能自己 ship 简单 feature。
The constraint moved downstream, from the keyboard to the whiteboard. 瓶颈从键盘挪到了白板。(Amol Avasare 处境的转述,Ranzware)”
产能放大后第二个变成瓶颈的环节,是质量保证。这里 Anthropic 的选择是不设专职 QA 工程师,测试是全队共享的责任。
因为 AI 让代码生成变快,怎么写测试就更要讲究。团队守传统的测试金字塔:最多的是单元测试,其次是集成测试,最少的是端到端测试。
刻意压端到端测试的数量,是为了不让 CI 变成瓶颈,避免测试跑太久把开发拖慢。
另一块重头是评估 AI 模型和产品本身,也就是 AI Evals。团队花大量精力建和维护评测系统,用来衡量质量、保证新模型、新产品、平台更新在触达客户之前达标。这件事不归某一个团队,工程师和 PM 都深度参与,人人对「上线前达到高标准」这件事负责。
Katelyn 也直说,团队内部的角色变得更流动,没有清晰的责任分界;他们也在边做边学,不认为自己找到了完美公式。
问到她团队是否跟 Claude Code 负责人 Boris Cherny 说的一样,代码基本全由 AI 生成,她的回答是肯定的。但她紧接着补了一句最要紧的限定:代码全由 AI 生成,不等于 AI 在自己造软件。
在她的描述里,工程师在系统设计和架构决策上扮演最重要的角色。AI 是很好的协作者,但一个大型复杂系统该怎么构建,由工程师决定。设计清楚之后,实现主要交给 AI agent。她给的操作要点是,不要在「agent 生成代码」和「人手写代码」之间来回切,更好的做法是持续引导 agent,直到它产出符合要求的结果。
正因为如此,她认为审查 AI 产出成了最有价值的工程技能之一。「人不可被替代」这件事,她在更早的一篇博客里给过完整的框架,把人不可替代的地方归为三样。
There is no loss function for "what should this company care about." 「公司该在乎什么」这件事,没有损失函数。(Katelyn Lesse 博客,2026-02)”
前面几节讲人这一侧怎么排,这一节讲人该怎么跟 agent 打交道。Katelyn 给的头号建议是:定义想要的结果(outcome),而不是简单派一个任务(task)。
具体说,与其讲「给我建个 dashboard」,不如讲清成品要达成什么、成功长什么样、有哪些重要要求或范例。这个用法被她团队做成了产品能力。Claude Managed Agents 里有个叫 Outcomes 的功能,把「定义结果、自动判达标」变成一条内建的循环。
这跟她博客里更早写过的一条实践是同一件事的产品化。她把它叫 self-verifying loops:不要指望 LLM 一次就给出难题的干净答案,而是让编码 agent 先做计划、写代码、跑测试、检查输出,一直迭代到全部通过。她给这种做法一个直白的类比,就像人在把一份文档发出去之前会自己先审一遍。定好「完成」的标准,给 agent 能对着标准自查的工具,不达标就不让它停下。
她还提到另外两条同源的实践:让多个 agent 互查(一个写代码,另一个换个视角审;出事故时多个 agent 带不同假设并行排查,就像几个 on-call 工程师互相补盲区),以及给 agent 记忆和上下文(一个资深工程师比同等原始能力的新人强,靠的是「我们六个月前试过这个方法,因为一个微妙的原因失败了」这种积累的组织知识,agent 也需要同样的东西)。
角色能这么排,背后要有一层平台架构撑着。Katelyn 在 Code with Claude London 发布 self-hosted sandboxes 和 MCP tunnels 时,把这层架构的原则讲得很清楚。
她指出企业建 agent 最大的拦路石是两条:代码执行要跑在自己的基础设施上,工具访问要留在防火墙后面,否则安全团队不会放行。Anthropic 给的答案是把 agent 拆成大脑和手两半。
self-hosted sandboxes 让 Claude Managed Agents 在企业完全掌控的基础设施上执行代码,用企业自己的运行镜像、网络规则、安全工具;MCP tunnels 让 agent 够到防火墙后的内部 MCP 服务,不用开一个入站端口。在同一条帖子里,她把这套架构上升成一句面向所有公司的判断。
“Every company should be standing up an internal agent platform right now, or risk falling behind. And there's no longer a reason to build that platform from scratch.”
每家公司现在都该立起一个内部 agent 平台,否则就落后;而且再没理由从零自己搭。
把这几节合起来,Anthropic 的做法勾出一个跟「AI 提效就该减人」相反的形状:团队规模不变,人力从写代码挪到了架构判断、审查 AI 产出、做产品决策和维护客户关系上;agent 接手其余的事,并且被要求在能自查的循环里跑、互相检查、带着记忆工作。
她反复说的一点是,通往这个形状的路不是等更聪明的模型,而是现在就把 agent 的搭法建对,同时把判断力、品味和关系最好的人留住。产能被 AI 放大之后,这些恰恰成了唯一还稀缺的东西。
Treat agents like teammates, not tools. Give them memory, give them domain expertise, and make them check each other's work. Then find the humans with the best judgment, taste, and relationships. Hold on to them. 把 agent 当队友,不当工具。给它记忆、给它领域知识、让它们互相检查。然后找到判断力、品味和关系最好的人,留住他们。(Katelyn Lesse 博客)”
三篇共享同一个前提:代码基本全由 AI 生成,瓶颈转向审查与决策。差异在于从哪个面切进去:本篇讲组织和角色重排,另两篇讲工作方式和基础设施。
缺口说明:付费墙后「工程师变 tech-agnostic」「新人入职怎么变」两段无 Katelyn 本人一手来源,本文不据别人的话代填,直接略去。