Anthropic Platform 工程 · Katelyn Lesse · 深度解读

写代码不再稀缺之后，
工程组织不是砍人，是重排

一个人能顶三个人，直觉推论是缩编。Anthropic 内部的做法正好相反：团队规模没动，被重排的是每个人的角色，以及团队上方的整套决策与验证机制。

团队规模

7–8 人不变

旧「1 TL + 1 PM + 4-6 IC」重排为「1 TL + System Designers / Implementers 对半」

同一批人的产出

并行 1-2 → 4-5

同时推进的项目数翻了几倍，压力顺流水线堆向下游

Katelyn Lesse Head of Platform Engineering, Anthropic AI-Native 工程组织 · 第三篇

当写代码不再是稀缺资源，一个直觉的推论是：既然一个人能顶三个人，团队就该缩编。Anthropic 内部的做法正好相反。团队规模没动，被重排的是每个人的角色，以及团队上方的整套决策与验证机制。

讲这件事的人是 Katelyn Lesse。她在 Stripe 带过零售工程七十多人，2025 年年中离开 Stripe 加入 Anthropic，现在领 Claude 开发者平台的工程，也是 Claude Managed Agents 这个托管服务背后的建设者。她的视角有一个别处少见的特点：既有成熟支付公司做工程组织的经验，又直接在一家前沿实验室里跑 AI-native 的团队。

这篇是「AI-native 工程组织」的第三个切面。前两篇分别讲了工作方式的重写和让 Spotify 快起来的基础设施地基。本篇的焦点是组织和角色怎么重排，以及支撑这套重排的平台架构。共同的底色三篇一致：代码基本全由 AI 生成，瓶颈从写代码挪到了审代码和做决策。真正的增量在于，当这个底色成立后，一个团队的形状、编制和职责该怎么变。

素材说明 · 核心来源是 Gregor Ojstersek 的 Engineering Leadership 通讯对 Katelyn Lesse 的采访（2026-07-01，付费）。该文付费墙后有几段未能获取，本文用 Katelyn 本人的公开材料（博客、悉尼 keynote 现场记录、LinkedIn、播客）交叉补足，并标注来源与时间。她本人博客发表于 2026-02，用于呈现她一以贯之的框架，凡涉及具体数字则以更近的公开发言为准。

01 · 重排

团队规模不变，构成变了

Katelyn 反复强调的一句话是：软件开发很多方面没变，也不需要变。团队仍然需要足够的人去构建、运维、长期维护系统。变的只有一件事，AI 给每个人的杠杆大了很多。

具体到团队结构，Anthropic 用的还是传统的两张披萨能喂饱的交叉职能团队：五到八个工程师，加一个工程经理、一个 PM、一个设计师。她在悉尼的 keynote 上给过一个更直白的说法，团队仍在七八个人，这个数字不是什么科学推导，更多是文化和历史沿袭，就是这个规模最合适。

规模不动，被重排的是这几个人分别在干什么。旧模型是一个 team lead、一个 PM，加四到六个只管实现的工程师。新形态里，几乎每个工程师都要能在需要时挑起 tech lead 的角色。在悉尼台上，Katelyn 和产品负责人 Angela Jiang 把新形态说得更细：一个 Team Lead，加上大约对半开的「System Designers」和「Implementers」。

以前

一个人管方向，其余人管实现

TL1 Team Lead

PM1 Product Manager

IC4–6 只管实现的工程师

写代码贵，所以多数人被安排去写代码。

→

现在

对半开：谁定系统，谁把它实现出来

TL1 Team Lead

SD约一半 System Designers

IM约一半 Implementers

写代码便宜了，重心移向「定系统、做架构」。

同样是这批人，产出的量级不同了。原来一个八人团队同时推进一到两个项目，现在能并行四到五个。团队拥有和维护的还是同一批系统，AI 让每个人能并行执行的工作量翻了几倍。

以前

同时推进 1–2 个项目

→

现在（同样 7-8 人）

同时推进 4–5 个项目

这一节的意思

产能被放大之后，压力会顺着流水线往下游堆，堆到那些 AI 还接不了的环节上。后面几节就是这些环节各自被压到什么程度。

02 · 瓶颈位移

从键盘挪到白板，所以更缺 PM

产能放大之后第一个变成瓶颈的环节，是「决定该建什么」。这与很多公司的做法相反。

不少团队在 AI 铺开后是减 PM 的。OpenAI 的工程师与 PM 比例是三十比一；Telnyx、Portkey 这类公司干脆几乎不设 PM。Anthropic 的判断相反：AI 没有减少对 PM 的需求，尤其是那些真懂底层技术的 TPM，这个角色反而更重要了。

逻辑很直接。工程师出活变快之后，瓶颈从「能不能建」转到了「该不该建、建得对不对」。挑战不再是团队有没有能力做出来，而是有没有在做对的东西。在她看来，被放大的工程产能需要有人保证它被聚焦到最高影响的问题上，这正是产品管理的价值所在。

OpenAI（对照）

30 : 1

工程师比 PM。Telnyx、Portkey 则几乎不设 PM。方向是减 PM。

Anthropic

要更多 PM

目前仍 1 团队 1 PM，但相信比例很快会变；另设 Prod Ops 角色帮团队更快做决策。

这个判断有一组独立的硬数字撑着。Anthropic 增长负责人 Amol Avasare 公开讲过，内部铺开 Claude Code 后，工程团队实际运行在有效人数的两到三倍，一个五人团队出活像十五到二十人。这些数字也解释了为什么公司在主动发岗补 PM，而不是补工程师。

2–3×

工程团队有效产能

铺开 Claude Code 后，5 人团队出活像 15–20 人

>80%

合并生产代码

研究预览以来某些时段，超八成 merged 代码来自 AI 编码系统

$305–460K

Claude Code PM 岗年薪

要求兼具产品功底 + 工程素养，对标资深工程师薪资

口径提示 · 两到三倍产能、$305K–$460K、八成合并代码，均来自 Amol Avasare 公开发言的第三方转述（Ranzware，2026-06-27）；八成的数字与 Anthropic 公司层面「70% 到 90% 代码由 AI 生成」的其他公开口径一致。

用对标资深工程师的薪水去招带工程背景的 PM，等于是在说，当下真正稀缺、真正值钱的是产品决策。角色边界也在往「PM 要更技术」的方向移。Angela 在悉尼台上把话讲明了：PM 现在得更技术，不用是工程师，但技术到能自己 ship 简单 feature。

“

The constraint moved downstream, from the keyboard to the whiteboard. 瓶颈从键盘挪到了白板。（Amol Avasare 处境的转述，Ranzware）

”

03 · 质量

没有专职 QA，测试是全员的事

产能放大后第二个变成瓶颈的环节，是质量保证。这里 Anthropic 的选择是不设专职 QA 工程师，测试是全队共享的责任。

为什么不放松，反而更谨慎

因为 AI 让代码生成变快，怎么写测试就更要讲究。团队守传统的测试金字塔：最多的是单元测试，其次是集成测试，最少的是端到端测试。

刻意压端到端测试的数量，是为了不让 CI 变成瓶颈，避免测试跑太久把开发拖慢。

另一块重头是评估 AI 模型和产品本身，也就是 AI Evals。团队花大量精力建和维护评测系统，用来衡量质量、保证新模型、新产品、平台更新在触达客户之前达标。这件事不归某一个团队，工程师和 PM 都深度参与，人人对「上线前达到高标准」这件事负责。

Katelyn 也直说，团队内部的角色变得更流动，没有清晰的责任分界；他们也在边做边学，不认为自己找到了完美公式。

04 · 判断在人

代码全由 AI 生成，但架构是人的

问到她团队是否跟 Claude Code 负责人 Boris Cherny 说的一样，代码基本全由 AI 生成，她的回答是肯定的。但她紧接着补了一句最要紧的限定：代码全由 AI 生成，不等于 AI 在自己造软件。

在她的描述里，工程师在系统设计和架构决策上扮演最重要的角色。AI 是很好的协作者，但一个大型复杂系统该怎么构建，由工程师决定。设计清楚之后，实现主要交给 AI agent。她给的操作要点是，不要在「agent 生成代码」和「人手写代码」之间来回切，更好的做法是持续引导 agent，直到它产出符合要求的结果。

The effective use of AI is not about asking an LLM to generate code and accepting the first answer. You should continuously steer the agent, provide feedback, and let it test and improve its own work until it meets the required standard. 有效地用 AI，不是让模型生成代码然后接受第一版答案，而是持续引导、给反馈，让它自测自改到达标。（Katelyn Lesse，eng-leadership 采访）

正因为如此，她认为审查 AI 产出成了最有价值的工程技能之一。「人不可被替代」这件事，她在更早的一篇博客里给过完整的框架，把人不可替代的地方归为三样。

Motivation

定问题的动机

「公司该在乎什么」没有损失函数。最好的产品决策往往不是期望值最高那个，而是对数据里还没出现的未来下的注。目标本身是人选的，没法拿来优化。

Taste

品味

不只是认出什么是好，而是原创一个还不存在的「好」的标准。当每家公司都问同一批模型要决策，就会收敛到同样的设计；拉开差距的是有人说「我相信这样更好」。

Trust

驱动增长的信任

信任建立在有东西押上、能兑现承诺之上。agent 没有 stake，做不到。信任最深的公司拿得到别人拿不到的市场信号。

时间提示 · motivation / taste / trust 这套框架出自 Katelyn 本人博客《The human + agent software team wins》（2026-02-16），比 7 月那次采访早约四个半月。它讲的是责任和判断为什么留在人这一侧，与 7 月采访里「审 AI 产出是最值钱技能」「架构决策是工程师的职责」是同一条脉络。

“

There is no loss function for "what should this company care about." 「公司该在乎什么」这件事，没有损失函数。（Katelyn Lesse 博客，2026-02）

”

05 · 怎么用 agent

给 agent 定 outcome，而不是派 task

前面几节讲人这一侧怎么排，这一节讲人该怎么跟 agent 打交道。Katelyn 给的头号建议是：定义想要的结果（outcome），而不是简单派一个任务（task）。

具体说，与其讲「给我建个 dashboard」，不如讲清成品要达成什么、成功长什么样、有哪些重要要求或范例。这个用法被她团队做成了产品能力。Claude Managed Agents 里有个叫 Outcomes 的功能，把「定义结果、自动判达标」变成一条内建的循环。

人

描述期望结果

成品要达成什么、成功长什么样

→

Agent A

编码 agent 去做

生成一版方案

→

Agent B

评判是否达标

对照期望结果检查

→

交付

达标才交出

最终结果

↻ 不达标：编码 agent 自动迭代重试，再回到评判，直到达标

这跟她博客里更早写过的一条实践是同一件事的产品化。她把它叫 self-verifying loops：不要指望 LLM 一次就给出难题的干净答案，而是让编码 agent 先做计划、写代码、跑测试、检查输出，一直迭代到全部通过。她给这种做法一个直白的类比，就像人在把一份文档发出去之前会自己先审一遍。定好「完成」的标准，给 agent 能对着标准自查的工具，不达标就不让它停下。

她还提到另外两条同源的实践：让多个 agent 互查（一个写代码，另一个换个视角审；出事故时多个 agent 带不同假设并行排查，就像几个 on-call 工程师互相补盲区），以及给 agent 记忆和上下文（一个资深工程师比同等原始能力的新人强，靠的是「我们六个月前试过这个方法，因为一个微妙的原因失败了」这种积累的组织知识，agent 也需要同样的东西）。

Good prompts are less about telling the AI what to do step by step and more about clearly describing what success looks like. 好的提示，不在于一步步告诉 AI 怎么做，而在于清楚描述成功长什么样。（Katelyn Lesse）

06 · 架构

支撑这套重排的架构：大脑和手分开

角色能这么排，背后要有一层平台架构撑着。Katelyn 在 Code with Claude London 发布 self-hosted sandboxes 和 MCP tunnels 时，把这层架构的原则讲得很清楚。

她指出企业建 agent 最大的拦路石是两条：代码执行要跑在自己的基础设施上，工具访问要留在防火墙后面，否则安全团队不会放行。Anthropic 给的答案是把 agent 拆成大脑和手两半。

反面 · agent-in-a-box 陷阱

harness、session、sandbox 全挤在一个容器里

不扩展，安全边界落在错的位置。

→

正解 · brain / hands split

大脑和手解耦，手放进企业 VPC

手可以放在任何地方，包括企业自己的 VPC 里。

The brain (Claude + harness) is decoupled from the hands (sandboxes + tools), so the hands can live anywhere, including inside your VPC. Don't fall into the agent-in-a-box trap where harness, session, and sandbox all share a container — it doesn't scale, and the security boundary ends up in the wrong place. 大脑（Claude + harness）与手（sandbox + 工具）解耦，手可以放在任何地方，包括你的 VPC 里。别掉进 agent-in-a-box 陷阱:把 harness、session、sandbox 塞进一个容器，既不扩展，安全边界还落错位置。（Katelyn Lesse，LinkedIn，2026-05）

self-hosted sandboxes 让 Claude Managed Agents 在企业完全掌控的基础设施上执行代码，用企业自己的运行镜像、网络规则、安全工具；MCP tunnels 让 agent 够到防火墙后的内部 MCP 服务，不用开一个入站端口。在同一条帖子里，她把这套架构上升成一句面向所有公司的判断。

她的原话

“Every company should be standing up an internal agent platform right now, or risk falling behind. And there's no longer a reason to build that platform from scratch.”
每家公司现在都该立起一个内部 agent 平台，否则就落后；而且再没理由从零自己搭。

07 · 结论

她自己的结论

把这几节合起来，Anthropic 的做法勾出一个跟「AI 提效就该减人」相反的形状：团队规模不变，人力从写代码挪到了架构判断、审查 AI 产出、做产品决策和维护客户关系上；agent 接手其余的事，并且被要求在能自查的循环里跑、互相检查、带着记忆工作。

她反复说的一点是，通往这个形状的路不是等更聪明的模型，而是现在就把 agent 的搭法建对，同时把判断力、品味和关系最好的人留住。产能被 AI 放大之后，这些恰恰成了唯一还稀缺的东西。

“

Treat agents like teammates, not tools. Give them memory, give them domain expertise, and make them check each other's work. Then find the humans with the best judgment, taste, and relationships. Hold on to them. 把 agent 当队友，不当工具。给它记忆、给它领域知识、让它们互相检查。然后找到判断力、品味和关系最好的人，留住他们。（Katelyn Lesse 博客）

”

同一系列

AI-Native 工程组织的另两个切面

三篇共享同一个前提：代码基本全由 AI 生成，瓶颈转向审查与决策。差异在于从哪个面切进去:本篇讲组织和角色重排，另两篇讲工作方式和基础设施。

工作方式面 · Fiona Fung

Running an AI-Native Engineering Org

Claude Code 团队怎么重写七大团队规范：JIT planning、代码即真相来源、人机分层 review、扁平化加管理者先做 IC。

读这篇 →

基础设施面 · Spotify

编码不再是瓶颈

让 Spotify 快起来的不是 Claude，是几年前为人建的平台底座；标准化即 agent 杠杆，卡点挪到审 PR 和决策。

读这篇 →

参考

信息来源

第三方 · 付费
Engineering Leadership 通讯：How Anthropic Builds AI-Native Engineering Teams（Gregor Ojstersek，2026-07-01）核心来源，采访 Katelyn Lesse。付费墙后 5 段未获取，缺口部分用下列 Katelyn 本人公开材料交叉补足。
一手
Katelyn Lesse 博客：The human + agent software team wins（2026-02-16）motivation / taste / trust 框架、self-verifying loops、agent 互查与记忆的原始出处。发表于 2 月，用于框架层。
第三方
Real Velona：Anthropic 悉尼 keynote 现场记录（2026-05-04）Katelyn + Angela Jiang 台上发言：7-8 人团队、System Designers/Implementers 对半、PM 要能 ship 简单 feature。
第三方
Ranzware：Anthropic 把招聘重心转向 PM（2026-06-27）转述增长负责人 Amol Avasare 公开发言：2-3x 产能、$305K-$460K PM 岗、>80% 合并代码。
一手
Katelyn Lesse LinkedIn：Claude Managed Agents self-hosted sandboxes + MCP tunnels（2026-05-20）brain/hands split 架构、agent-in-a-box 陷阱、「每家公司都该建内部 agent 平台」原话。

缺口说明：付费墙后「工程师变 tech-agnostic」「新人入职怎么变」两段无 Katelyn 本人一手来源，本文不据别人的话代填，直接略去。