GENAI-PLAYBOOK · 内部度量 FACT-CHECK-LOOP

换上 Opus 4.8 那天,
事实核查从反复返工
变成了一次过

过去两个月,我用同一套 fact-check 流程核了 11 篇报告:独立 subagent 在干净上下文里逐条比对原文,发现问题就改,再换一个新 subagent 重核,直到零问题。 每一轮都老老实实记进了项目的 STATUS。这些数字不是跑分,是真实工作流里攒下来的账本。

平均核查轮次
3.21.2
六篇全是 3-4 轮,之后压到 1-2 轮
一次就过的比例
0/64/5
从一篇都没有,到八成首轮零问题
分水岭
05·29
这天之后的报告,画风彻底变了
01

那道断崖,自己会说话

横轴是 11 篇报告按时间排开,纵轴是它们各自跑到「全部通过」用了几轮。前六篇在 3-4 轮高位反复横跳,过了 05-29 那条线,几乎贴着「1 轮」走。

4.8 之前 · 平均 3.2 轮 4.8 之后 · 平均 1.2 轮 05-29 分水岭
4 轮 3 轮 2 轮 1 轮 ▲ OPUS 4.8 · 05-29 05-15 05-21 05-22 05-26 ×2 05-28 05-29 05-30 06-01 06-03 06-04
02

逐篇对账

每篇报告的核查轮次都来自它自己的 STATUS 记录,不是事后凑的。哪一轮发现了几个问题、是事实错还是措辞不准,当时就写下来了。

报告 轮次 首轮即过 这一摞改了什么
AI 原生创业的失败模式
05-15
3 第 3 轮才零 issue
Claude Code 啃大型代码库
05-21
4 拖到第 4 轮才干净
Anthropic 重建销售组织
05-22
3 3 轮
Agent 友好的 CLI
05-26
3 修了 5 处
Agent 原生的验证
05-26
3 4 个问题:1 事实错 + 3 措辞不准
零信任 AI Agent
05-28
3 4 处修正
━━━━ 切到 OPUS 4.8 · 2026-05-29 ━━━━
用 LLM 给源码做安全
05-29
1 PASS 一轮零 issue
动态工作流
05-30
1 PASS 独立 agent 重抓官方页面逐条验证,0 错误
如何"圈住"Claude
06-01
1 PASS 逐字核 15 处英文引用 + 全部数字/架构,零 issue
动态工作流 · 模式篇
06-03
2 R1 修 1 处引用截断,R2 即过
LLM 攻击导航器
06-04
1 PASS 满篇精确数字,零修正
03

最硬的那一篇

要说服力,光看平均数不够。挑一篇数字密度最吓人的——它最容易翻车,结果一轮就过。

LLM 攻击导航器 · 06-04 · 共 1 轮 · 零修正

这种报告,过去几乎不可能首轮通过

全篇塞满了精确读数:账号样本量、观测次数、攻击成功率的前后变化、相关系数、两组评分的对比、ARiES 三维分值…… 以往只要数字一多,subagent 总能挑出几处搬运时串了行或抄错小数点。这次独立核查重点就是逐个数字回原文比对,结果一处没动。

832 个账号 13,873 次观测 33% → 56% r = 0.28 56.4 vs 46.8 ARiES 三维分值