GenAI Playbook — Odin Wang

AI 全权写码后，工程组织不是砍人是重排

Katelyn Lesse（Anthropic Platform 工程负责人）：团队规模不变、并行项目翻几倍、PM 反缺 + Prod Ops、无专职 QA、定 outcome 管 agent、大脑与手分离架构。AI-Native 工程组织第三篇。

Web2026-07

生产复盘 · 成本优化

为省钱给 AI 客服降级，省下的钱三个月后赔进去四五倍

一个团队把 AI 客服账单砍掉一半，三个月后赔进四到五倍。问题不在哪家做砸了，在长尾的几何：分类器只看表面，便宜模型在藏着复杂意图的查询上自信答错，省下的钱看得见、赔掉的质量由别的部门买单。正确替代是不确定性级联。

Web · 中英2026-06

Physical Agentic AI

当 Claude 自己操控机器狗

Anthropic 红队让 Opus 4.7 全自主重跑机器狗实验，比最快人类队快约 20 倍；但「把球推回起点」的实时控制仍做不到。两件事放在一起，标出了当前 LLM 操控物理设备的能力边界。

Web · 中英2026-06

Data Architecture

Data Agent 本质是数据治理

做数据分析 agent，本质是数据治理项目不是 AI 项目，换更强的模型也解决不了。四层栈逐层拆 + 一个载重决策：最后算数那步不让模型自由写 SQL，把错误从隐性逼成显性。

Web · 中英2026-06

CLI Design

Agent-Friendly CLI 设计

把 N 个 API 合并成 30–50 个 agent-facing 命令。Anthropic + Google + AXI benchmark（425 runs）三方综合 10 原则；含 aws-samples Skill 实现。

Web + Skill2026-05

Verification

Agent 自证清白

Code with Claude London 2026：DOM 长出机器可读表面。Contract testing 经济学翻转，agent 时代首次可行。

Web2026-05

Architecture

Single Loop vs Multi-Agent

5 个 Agent 砍到 1 个 Loop：+28.8% tool efficiency、+16% helpfulness。

Web + PPTX2026-05

Original Research

Multi-Agent Alignment Gap

基于 Anthropic ICLR 2026 论文。AI 组织比个体更有效但更不对齐，三大失败机制。

PPTX2026-05

Integration

MCP 生产级 Agent 集成

三种集成方式、五大设计模式、Client 降本 -85% tool tokens。

PPTX2026-04

Research

Agent 自主性研究

Agent 自主性的多维度分析与分级框架。

PPTX2026-04

经济研究

AI 是个人能力的放大器

Anthropic 分析 40 万次 Claude Code 会话：专家每条指令带动的工作量是新手的 2.4 倍，成功率翻倍多。决定成败的不是编程背景，是对问题的理解深度。

Web · 中英2026-06

详尽总集

用好 Claude Code 的 harness

十余篇 Claude Code 使用经验的整合手册:第〇层模型、上下文、知识与工具、编排、验证,外加「边搭边砍」的纪律。读完这一篇,不必再回头翻那十余篇。

Web · 中英2026-06

设计侧总集

从零自建 agent harness

「用好 Claude Code 的 harness」的设计侧下篇:不配现成框架,拿 API/SDK 从零搭那层。工具设计、编排、验证与安全三块,外加一条贯穿全篇的 prompt caching 约束。和上篇几乎零重叠。

Web · 中英2026-06

详尽总集

用好 Kiro 的 harness

把「用好 Claude Code 的 harness」平移到 Kiro 的姊妹篇,全程区分 IDE / CLI / ACP 三种用法:从模型地基、上下文,到知识工具、编排、验证五层,逐个标清哪条线有、哪条没有。

Web · 中英2026-06

Orchestration

Dynamic Workflows：谁持有 Plan

Subagent / Skill / Workflow 到底差在哪：编排的 plan 在谁手里。带可切换的交互演示和三份真实样本文件。

Web2026-05

Patterns

Dynamic Workflows 怎么用

六个可复用 pattern + 三个长任务失败模式（偷懒 / 自我偏袒 / 目标漂移）。带交互式 pattern gallery，每种编排形状一张图。接续《谁持有 Plan》。

Web2026-06

At Scale

大代码库最佳实践

Harness > Model。5 个扩展点 + 3 个部署 Pattern。基于 Anthropic Applied AI 团队部署经验。

Web + PPTX2026-05

Design

Harness 设计方案

驾驭 Claude 智能的设计层面思考。

PPTX · 点击下载2026-05

Onboarding

Legacy 屎山代码 Onboarding

MacCoss Lab 700K C# 实战：独立 context repo、Skills 引用不嵌入。

PPTX2026-05

Trends

2026 Agentic Coding 趋势

8 大趋势：从 Copilot 到 Autonomous Agent 的演进路径。

PDF + PPTX2026-04

Session

1M 上下文会话管理

Context rot、compaction、rewind、subagent 决策框架。

PPTX2026-04

Subagent

Subagent 架构与调度

调度、协作模式、隔离策略完整解析。

PPTX + PDF2026-04

Skills

Skills 最佳实践

Skill 编写规范、模式库与复用策略。

PPTX2026-04

Claude Code · 官方定义

官方给 loop 下了定义：四层 loop 分类与对应原语

Claude Code 团队把满天飞的「设计 loop」收敛成一套分类：按触发、停止、原语、任务分成 Turn / Goal / Time / Proactive 四层，每层配 SKILL.md 自验、/goal、/loop 与 /schedule、事件触发。

Web · 中英2026-07

Model Comparison · 选型

Sonnet 5 vs Opus 4.8 vs Sonnet 4.6：Coding 与 Agentic 怎么选

基于官方 System Card 的三模型横向对比。Sonnet 5 抗 prompt injection 与 Opus 4.8 并列最强，价格只是四成；多数 coding/agentic 评测仍落后 Opus 4.8，深度数学推理差距明显。

Web · 中英2026-07

Architecture

Prompt Caching 架构第一原则

Cache 是架构约束而非优化。5 个反直觉设计 + 战略解读。

PPTX2026-05

Sales Enablement

Bedrock vs 原厂 API

托管 vs 直连的成本、延迟、功能覆盖对比。

PPTX2026-05

Privacy

Claude 三渠道隐私对比

API / Claude.ai / Claude Code 隐私模型差异。

PPTX2026-05

Migration

Opus 4.7 性能回退清单

MRCR v2 崩塌（256k 91.9%→59.2%）、BrowseComp −4.4pp。

PPTX2026-05

Best Practice

Opus 4.7 最佳实践

Tokenizer 变化、xhigh effort、adaptive thinking、3 项行为变更。

PPTX2026-04

Postmortem

AI 失败的两副面孔

把公开的 AI agent 事故池从 9 起扩到 50 起以上，一个被掩盖的事实浮现：AI 失败有两副面孔，运维型根因在工程层、模型型根因在模型本身，解法不同。混为一谈就会用错面的解药治另一面的病。含当前旗舰模型 2026 证据与一条铁律：不能让模型当自己的裁判。

Web · 中英2026-06

Field Guide

MCP 上生产的高危环节

MCP 默认信任太松：认证可选、工具定义可变、会话级权限一次全发。四类攻击 + 三家官方 SDK 同一个 DNS rebinding 漏洞（NVD 可查）+ NSA 官方指南 + 上生产前加固清单。虚构的 CVE-2026-32814 已剔除。

Web2026-06

Threat Intel

AI 网络攻击的新分界线

Anthropic 红队把 832 个被封账号映射到 MITRE ATT&CK：让攻击变危险的不是技术变强，而是 agentic 编排。中风险账号半年从 33% 涨到 56%。含术语入门。

Web2026-06

Postmortem

How We Contain Claude

Anthropic 最坦诚的 agent 安全复盘：三款产品三套隔离架构 + 四起翻车事故。在环境层封死爆炸半径，模型层只兜底。钓鱼 25 次成功 24 次。

Web2026-06

Field Guide

用 LLM 加固源代码

Anthropic 安全团队实战：六步 find-and-fix 循环。发现已可廉价并行，瓶颈后移到验证/分诊/修补。1596 披露 vs 97 修复。

Web2026-05

Zero Trust

AI Agent 零信任实施指南

Anthropic eBook 拆解：7 层控制平面、Agentic SOAR、合规映射。从 Never Trust 到 Bounded Autonomy。

Web2026-05

Customer Talk

Trust-First Agent 落地

L'Oréal / Lyft / RBC 信任优先路径与度量体系。

PPTX2026-05

Guide

AI 安全防御指南

企业级 AI 安全防御方案与实施路径。

PPTX2026-04

Safety Research

Mythos 安全研究

AI 安全威胁、训练监控、sandbagging 15 页深度分析。

PPTX2026-04

Original Research

为什么 Taste 不可替代

人脑对经验的压缩压力远高于 LLM,Taste 就藏在这个差异里。四条认知科学线索拼成一条因果链:约束 → 取舍 → 结构性表征 → 方向性直觉,附 AlphaGo 边界与可证伪条件。

Web · 中英2026-06

Field Notes

用 LiteLLM 把 Bedrock 接成生产网关

一套跑在生产上的 LiteLLM→Bedrock 网关沉淀。模型配置四层递进：公网 → 本区 VPCE → 跨区 US profile → 跨账号 AssumeRole；含 AWS 架构图、Claude Code 接入、超时与负载均衡、上生产清单。

Web2026-06

产业史

同一份活，六十年换八身衣服

FDE 不是新工种。从 IBM 系统工程师到前沿部署工程师，「最后一公里」的集成劳动从没消失，只在四个工位间搬家、每十年换个职位名。Salesforce 的 No Software 早把结局演过一遍。

Web2026-06

Internal Metric

换上 Opus 4.8，事实核查一次过

同一套 fact-check 流程核了 11 篇报告，每轮都记进了 STATUS。5-29 切到 Opus 4.8 那天起，平均核查轮次从 3.2 掉到 1.2，首轮零问题从 0/6 变成 4/5。一条真实工作流攒出来的账本。

Web2026-06

Original Opinion

曲棍球杆的诅咒

为什么「稳健」是慢性淘汰。麦肯锡幂律曲线 + 柯达/诺基亚/黑莓尸检 + 四千亿真烧钱 + Bezos 单向门。一把叫「会疼」的尺，量穿真下注与装样子。

Web2026-06

Methodology

AI-Native 创业 6 大失败模式

构建即验证幻觉、Agentic 技术债、Confirmation Bias 闭环——约束消失后判断力成稀缺。

Web + PPTX2026-05

Platform

编码不再是瓶颈

Spotify 首席架构师 @ Code w/ Claude：让他们快的不是 Claude，是几年前为人建的平台底座（Fleet Management/Honk/Backstage）。标准化即 agent 杠杆，瓶颈从写代码挪到了决策。

Web2026-06

Org Design

AI-Native 工程组织

Fiona Fung 演讲解读：瓶颈从写代码转移到验证/review，七大团队规范重写，100% Claude 辅助 commit。

Web + PPTX2026-05

Data Analysis

AI 生产力 Gap 真相

Solow 悖论 2.0：$2500 亿投资 vs 10% 产出。30+ 数据源。

PPTX2026-05

Original Research

Why Taste Matters

资源约束如何产生 Taste；Less-is-More 效应；人机认知栈协作。

PPTX2026-04

Decision Framework

Build or Buy 决策框架

经典六因素 + GenAI 七大范式转移 + 加权评分卡。

PPTX2026-04

经济研究

AI 用量的实测节律图谱

Anthropic 第六版经济指数：测量改成小时级连续采样，给产出物打标签，再叠加 9700 人问卷。两个反直觉发现：写一篇博客聊天要 13 轮、Claude Code 只要 1 句；用得越自动化的人，反而对薪资和饭碗越乐观。

Web · 中英2026-06

SaaStr AI 2026

Anthropic 销售组织 AI 重建

Eleanor Dorfman 演讲：Opus 4.6 后需求暴涨，Claude 做工具栈结缔组织，54% 企业客户 self-serve 签约。

Web Article2026-05

How Anthropic Uses Claude

不会写代码的人，才是重做工作流的那个人

CLAFTS：一个零代码销售用 Claude Code 重做整个 GTM 工作流，几个月内 80% 团队采用。瓶颈不是写代码，是知道该造什么。

Web Article2026-06

Conference

Google Cloud Next '26 深度解读

五大信号：Vertex→Gemini Agent Platform、第八代 TPU。

PPTX + Report2026-05

Recap

AI Engineer Summit 复盘

19 个 session 的关键洞察与趋势提炼。

PPTX2026-05

Methodology

Jenny Wen 设计流程

设计方法论演示与实践。

PPTX2026-04

GenAI 时代的洞察与观点集

为什么 Taste 不可替代

用好 Claude Code 的 harness

从零自建 agent harness

曲棍球杆的诅咒

AI 全权写码后，工程组织不是砍人是重排

为省钱给 AI 客服降级，省下的钱三个月后赔进去四五倍

当 Claude 自己操控机器狗

Data Agent 本质是数据治理

Agent-Friendly CLI 设计

Agent 自证清白

Single Loop vs Multi-Agent

Multi-Agent Alignment Gap

MCP 生产级 Agent 集成

Agent 自主性研究

AI 是个人能力的放大器

用好 Claude Code 的 harness

从零自建 agent harness

用好 Kiro 的 harness

Dynamic Workflows：谁持有 Plan

Dynamic Workflows 怎么用

大代码库最佳实践

Harness 设计方案

Legacy 屎山代码 Onboarding

2026 Agentic Coding 趋势

1M 上下文会话管理

Subagent 架构与调度

Skills 最佳实践

官方给 loop 下了定义：四层 loop 分类与对应原语

Sonnet 5 vs Opus 4.8 vs Sonnet 4.6：Coding 与 Agentic 怎么选

Prompt Caching 架构第一原则

Bedrock vs 原厂 API

Claude 三渠道隐私对比

Opus 4.7 性能回退清单

Opus 4.7 最佳实践

AI 失败的两副面孔

MCP 上生产的高危环节

AI 网络攻击的新分界线

How We Contain Claude

用 LLM 加固源代码

AI Agent 零信任实施指南

Trust-First Agent 落地

AI 安全防御指南

Mythos 安全研究

为什么 Taste 不可替代

用 LiteLLM 把 Bedrock 接成生产网关

同一份活，六十年换八身衣服

换上 Opus 4.8，事实核查一次过

曲棍球杆的诅咒

AI-Native 创业 6 大失败模式

编码不再是瓶颈

AI-Native 工程组织

AI 生产力 Gap 真相

Why Taste Matters

Build or Buy 决策框架

AI 用量的实测节律图谱

Anthropic 销售组织 AI 重建

不会写代码的人，才是重做工作流的那个人

Google Cloud Next '26 深度解读

AI Engineer Summit 复盘

Jenny Wen 设计流程

GenAI 时代的
洞察与观点集