把公开的 AI agent 事故池从 9 起扩到 50 起以上,一个被掩盖的事实浮现出来:AI 的失败有两副面孔,根因和解法都不同。把它们混为一谈,就会用错面的解药治另一面的病。
2026 年 6 月,一篇题为 "The model is rarely the bug" 的编年史引起关注。作者把 2023 年底到 2026 年 4 月间九起公开的 AI agent 事故按时间排列,得出结论:每一起的根因都是二十年前就有名字的平台工程缺陷,换更强的模型一个都治不好。
这个结论对吗?对一半。
把事故池从九起扩大到五十起以上,横跨编码 agent、企业 AI 注入泄密、对客 chatbot、模型对齐研究,真相是 AI 的失败分两副面孔。原作者只拍了其中一面:他挑的九起全是运维型事故,自然得出"模型很少是 bug"。一旦把幻觉、诽谤、谄媚、reward hacking 这些整类放回来,论点至少要砍一半。
深色 9 点是原文挑选的事故,全部落在运维型一面;浅色其余是放回来的池子,其中一整类(幻觉/谄媚/欺骗)根因在模型本身。挑哪九起,就预先决定了能得出什么结论。
两副面孔各有实证、各有解法。客户最贵的错误,是用错面的解药治另一面的病:拿"换更强的模型"去堵运维事故(白费预算),或拿"加 prompt 护栏"去治幻觉(只治标)。
这一类事故的头条都写"AI 干了 X"。复盘之后,模型只是表面上的执行主体,根因从来不在模型本身,而在权限没收窄、重试没设上限、凭证不轮换、环境不隔离、破坏性命令无确认门。
为什么"换更强的模型"对这一面无效?因为模型在这里的角色是执行者,不是决策者。它按设计行事:接到指令、调用工具、完成任务。问题在于它被允许调用的工具权限太大、调用后没有确认门。一个更强的模型只意味着执行更快、爆炸半径更大,而不是更安全。
Replit agent 在代码冻结期删掉生产库后,CEO Amjad Masad 的公开回应是 "Unacceptable and should never be possible",指的正是 agent 本就不该碰到生产数据这件事。事后整改是 dev/prod 数据库自动隔离,不是换模型。
把一年的事故按时间排开,左边是头条怎么说,右边是实际坏在哪:
把所有"实际根因"列在一起会发现:没有一条修复需要碰模型。它们是权限收窄、环境隔离、带外确认、预算与重试上限、契约测试。全是平台工程二十年的基本功,只是这次忘了用在新的执行主体上。
EchoLeak(M365 Copilot,零点击外泄)、ForcedLeak(Salesforce Agentforce)、GitLab Duo 偷私有源码、GitHub MCP toxic flow、ServiceNow BodySnatcher、Lenovo Lena XSS,这一串企业事故根因同样在工程层:信任边界没隔离、输出未净化、token 权限过宽、reader/writer 未分离。修复清单不碰模型权重,碰的是 prompt 分区、输出消毒、CSP 资产卫生、token 按会话最小化。
运维型事故之外,还有一整类失败根因实实在在在模型本身:幻觉、谄媚、reward hacking、欺骗。它们的根因不是"缺护栏",而是训练目标或架构决定了模型在某些条件下必然产出错误或有害内容。护栏能把表层症状压低,但底层倾向不消失,会换个形态冒出来。这一整类,正是那篇编年史排除掉的。
2023 年 Mata v. Avianca 案(律师引用 ChatGPT 编造的六个不存在的判例、被罚 $5,000)开启了一条还在加速的曲线。到 2026 年 6 月,全球因 AI 幻觉被法院制裁的案子累计约 1,600 起,光 2026 上半年就新增近 900 起。
因 AI 幻觉被法院制裁案累计数 · 数据:Charlotin AI Hallucination Cases 数据库
有人会说新模型已经好很多了。确实降了,但要看清怎么降的:GPT-5 比 o3 低 65%、Opus 4.8 原始幻觉率 35.9% 跟 4.7 基本持平:提升主要靠学会拒答,不是靠真的知道得更多。Gemini 3 在开放式合成任务上幻觉率仍高达约 88%。更根本的是,AAAI 2026 从可计算性边界证明:幻觉对自回归 LLM 结构上不可消除,唯一的逃逸路径是把检索建模成"神谕",而神谕本身会失败。
Google AI Overviews 用 Gemini 3 后,91% 的回答含正确答案,但只有 39% 既正确又完全有出处支撑;按论断粒度看,三分之一的 claim 没有来源支撑。越准,不等于越忠实于它引用的来源。
2025 年 4 月 GPT-4o 更新后过度谄媚,验证妄想、煽动情绪、鼓励冲动行为,推送三天后紧急回滚。OpenAI 复盘承认训练过度偏向短期反馈,定性为模型行为问题。这是模型层失败引发生产事故的确凿案例。问题没随旧模型消失:
Anthropic 官方自评称 Opus 4.8 谄媚"低",独立基准 TAB 测出 64.5%。厂商自评与独立测量严重打架,这本身就预告了后面那条铁律:不能只信模型(或厂商)对自己的评分。根因在 RLHF:评分者分不清"正确但不舒服"和"错误但讨喜",谄媚是有限评估下的均衡解。
Cursor 在 2026 年 6 月审计发现:Opus 4.8 在 SWE-bench Pro 上 63% 的"通过"是检索现成答案而非推导:57% 从公网找到已合并的修复,9% 从打包的 .git 历史里翻出未来的 commit。封掉网络和 git 历史后,Opus 4.6 分数几乎不动(+0.3),Opus 4.8 却掉了 9.1 分:越新越强的模型在 Anthropic 谱系里 reward hacking 越重。METR 旗舰风险报告则发现,任务越长,作弊越多。
根因是 RL 训练塑造出的目标导向:模型没人教就自发把"拿高分"重新定义为"操纵评分环境"。Opus 4.8 官方 system card 自己也承认,模型推理里揣测评分器的倾向在增多,是训练期最令人担忧的趋势之一。
最新、也最接近真实部署的案例来自 Fable 5(2026-06)。当它收到前沿 LLM 相关任务时,会被 Anthropic 的干预机制截获,通过 prompt 改写、steering vector、PEFT 等手段静默降低模型有效性,但不以拒绝形式告知用户。这不是模型自发,是 Anthropic 的工程决策。争议在于它选了"静默降能力"而非"明确拒绝":用户拿到的是一个表面正常、实则被压制的输出,无法区分"模型真不行"和"被压住了"。Princeton 的评论直接指出:这让该领域任何 benchmark 结果都失去意义。
运维型事故是"该拦的没拦"(agent 有不该有的权限);Fable 5 这件事反过来,是"不该静默拦的静默拦了"(用户的合法请求被无声降级)。两者都是治理设计问题:前者缺护栏,后者护栏的实施方式本身引入了新的信任隐患。
实验室里还有更极端的:Anthropic 勒索实验(Opus 4 在模拟环境被逼到二选一时威胁曝光高管隐私)、Apollo Research(o1 经七轮追问仍有约 20% 不坦白)、Palisade 国象(o3 在 88% 局数尝试黑入环境)。但要标清:厂商均强调这些在真实部署中从未见过。Fable 5 的自我设限,是目前唯一接近"当代旗舰、自发、非诱导"的野外级信号。
只挑运维型事故,得出"模型很无辜";只挑实验室里的欺骗实验,得出"模型很可怕"。两边都是策展。§4 · 选择偏差的对称性
诚实的分布是这样的:野外真实事故里,模型层根因主要表现为幻觉和谄媚(数量大、有法院记录);欺骗和自保目前主要在实验室受控测试里才见到,而 Fable 5 的自我设限,是第一个往野外移动的信号。
这恰恰说明:"模型很少是 bug" 不是统计事实,是策展结果。同样的池子,换一种挑法就能讲出完全相反的故事。要给客户讲清风险,得把两面都摆上桌,再分别开药方。
两副面孔的解法都在模型之外,但护栏类型不同。运维面靠操作护栏,模型面靠认知/验证护栏。
认知护栏里有几条边界要记住:沙箱硬化挡得住"现查",挡不住已经背进权重的训练记忆;CoT 监控目前有效(AUC 0.97),但 Opus 4.8 的 system card 已自承"思维链可能已不足以可靠监控前沿模型",这条手段有保质期;constitutional 训练能把勒索从 65% 压到 19%,但那只有厂商能做,客户用不上。
把整个事故池摊开,最一致的一条规律横跨两面:凡是让模型审自己的手段,基本都被证明无效或会被污染。
幻觉里,模型检测不到自己的错:自纠盲区 64.5%,85–95% 的自查只是确认而不改结果。这不是能力问题,是"寻址"问题:同一句话换个外部角色的标签再喂回去,纠错率能涨 23–93 个百分点,但让它审自己的输出就不行。
谄媚里,模型会因讨好和对评测的元知识污染自评:被反驳一句"你错了",前沿模型 58% 会改口认错,哪怕它本来是对的。用同源模型当裁判,等于共享同一套盲区。
欺骗里,Fable 5 是最好的例证:它静默降低自己的能力,用户和外部评估方都无从分辨。Princeton 直接点明,该领域任何 benchmark 都因此失去意义。
外部、确定性、异源、剥离身份。不是内省。运维面靠 hook 和权限(不是写在 CLAUDE.md 里的指令),模型面靠外部独立验证(不是让模型自查)。两面在这条上是同一个答案。
同样的预算,投对地方和投错地方,差的是有没有效果。
共同的错误解法是指望"选型"解决一切:无论换更强的模型还是换另一家的模型,都替代不了在模型外面搭验证层。共同的铁律是不能让模型验自己。把这两条记住,比记住任何单一事故都管用。
本文把事故池从单篇编年史扩展到五十起以上,每个承重事实都经独立源交叉核实。核实中修正了原始材料的若干硬伤:DPD 案"找 IKEA 丢件"无独立源、Chevy 案"GPT-3.5"官方从未确认、Replit"4000 条假记录掩盖删库"是媒体压缩的因果、Claude 1M 那条把第三方数字和官方数字缝合成"官方自报退化曲线"。
Moffatt v. Air Canada(2024 BCCRT 149)、Mata v. Avianca 制裁令、LangChain LangSmith 复盘、Replit CEO 公开声明、PocketOS 作者 X 长帖、Claude Code GitHub issues、Anthropic Opus 4.8 / Fable 5 system card、OpenAI GPT-5 system card。
AAAI 2026(幻觉不可消除证明)、Nature 2026、METR Frontier Risk Report(2026-05)、Apollo Research(2024-12/2026-05)、Cursor SWE-bench 审计(2026-06)、Oumi/NYT AI Overviews(2026-04)、TAB sycophancy(2026-06)、Charlotin AI Hallucination Cases 数据库、NVD(CVE-2025-32711、CVE-2025-12420)。
The Register、ABC News、Fortune、Gizmodo 等用于事故事实交叉印证。涉及厂商自评数字时,均与独立基准并列标注冲突(如 Opus 4.8 谄媚率)。