模型对比 · Coding / Agentic 选型 · 2026-06-30

Sonnet 5、Opus 4.8、Sonnet 4.6,
该怎么选

Claude Sonnet 5 官方定位是"性能接近 Opus 4.8、保持 Sonnet 价位"。基于官方 System Card 的硬数据看,这句话哪里站得住,哪里有保留。

抗 Prompt Injection
0.19%
跨场景 live bug bounty 独特攻击成功率,Sonnet 5 与 Opus 4.8 并列最强,Sonnet 4.6 是 1.41%
标准定价对比
40%
Sonnet 5 标准价($3/$15)只是 Opus 4.8($5/$25)的四成
01 · 定位

三者是什么关系

Claude Sonnet 5 于 2026 年 6 月 30 日发布,是 Sonnet 4.6 的延续。Anthropic 官方定位很明确:把 Sonnet 5 做成"迄今最 agentic 的 Sonnet 模型",性能"接近 Opus 4.8",但保持 Sonnet 价位。

System Card 同时写明,Sonnet 5 不推进能力前沿,前沿目前由 Mythos 5 定义,Opus 4.8 在这里是作为"更通用能力强"的参照模型出现的。把三者放在一起看,关系大致是这样:在多数 coding 和 agentic 评测上,Sonnet 5 比 Sonnet 4.6 有代际级的提升,但仍落后于 Opus 4.8;在少数特定任务(长周期知识工作、专业金融分析、部分多模态图表理解)上,Sonnet 5 与 Opus 4.8 统计打平甚至小幅反超。

而在纯数学推理这类深度任务上,Opus 4.8 的领先优势很明显,没有被"接近 Opus"这一表述掩盖:USAMO 2026 上 Opus 4.8 是 96.7%,Sonnet 5 只有 79.5%。

一句话

Sonnet 5 在工程化、流程化的 agentic 任务上追得很近,但在深度数学推理上,跟 Opus 4.8 的差距依然摆在那里。

02 · Coding 对比

代际跃升,但仍落后 Opus 4.8

Sonnet 5 在工程化任务上的提升是确凿的代际跃升,FrontierCode 从 Sonnet 4.6 的 15.1 直接涨到 38.8,超过两倍半。

评测Sonnet 5Sonnet 4.6Opus 4.8
SWE-bench Verified85.2%88.6%
SWE-bench Pro63.2%58.1%69.2%
Terminal-Bench 2.180.467.074.6
FrontierCode v138.815.1
CursorBench61.2%49%63.8%
ProgramBench76–86%52–74%80–90%

"—" 表示 System Card 未给出该数字;蓝色为该行最高分

和 Opus 4.8 比,在有直接对照的几项评测里,Sonnet 5 始终落后几个百分点:SWE-bench Verified 落后 3.4pp,SWE-bench Pro 落后 6pp,CursorBench 落后 2.6pp。差距不大,但说明 Opus 4.8 在代码理解和长程修复上仍占优势。

需要注意一点评测方法上的细节:Opus 4.8 的 OSWorld-Verified 评测方式相对 Opus 4.7 有调整,修复了 zoom 工具、把单轮最大 token 数提到 128K,Anthropic 把 Opus 4.7 的历史分数从 78.0% 重新计算为 82.3%。跨代对比时,这部分提升里有一部分来自评测方法变化,不是纯粹的模型能力差异。

03 · Agentic 对比

这次升级的主战场

Agentic 是这次升级的主战场。Sonnet 5 相对 4.6 的涨幅普遍比 coding 那组更大,AutomationBench 从 5.3% 涨到 13.5%,超过两倍半。

评测Sonnet 5Sonnet 4.6Opus 4.8
BrowseComp(单/多 agent)84.7% / 86.6%76.2%84.3% / 88.5%
OSWorld-Verified81.278.583.4
Toolathlon Pass@154.3%49.4%59.9%
AutomationBench13.5%5.3%15.5%
GDP.pdf(文档理解)67.5% / 81.6%66.9% / 78.6%
AA-Briefcase(ELO,长周期知识工作)1393(第二)1352
Real-World Finance v2(ELO)121910001222(统计打平)
HLE(无/有工具)43.2 / 57.434.6 / 46.849.8 / 57.9

"—" 表示 System Card 未给出该数字;蓝色为该行最高分

在 BrowseComp 单 agent 这一项上,Sonnet 5(84.7%)已经反超 Opus 4.8(84.3%),虽然差距在误差范围内,但说明网页检索类 agentic 任务上两者基本同一水平;多 agent 模式下 Opus 4.8(88.5%)重新领先 Sonnet 5(86.6%)。

更值得关注的是两项"长周期、多步骤知识工作"类评测:AA-Briefcase 和 Real-World Finance v2,Sonnet 5 在这两项上反超或打平 Opus 4.8。这说明在按流程跑很多步、不需要深度数学推理的 agentic 场景里,Sonnet 5 已经接近甚至不输 Opus 4.8 的实际表现。但 Toolathlon(纯工具调用准确率)上 Opus 4.8 仍领先 5.6 个百分点,说明涉及复杂工具链编排时 Opus 4.8 更稳。

口径提示

AA-Briefcase(Artificial Analysis 自建的长周期知识工作评测)与 Opus 4.8 System Card 里报告的 GDPval-AA(ELO 1890)是两个不同的评测体系,不可直接对照合并。

无防护下,Sonnet 5 在 Browser use 场景的攻击成功率只有 Opus 4.8 的三十分之一左右;开启新防护后,两种 thinking 设置下都降到了 0。
根据 Claude Sonnet 5 System Card 数据整理,2026-06-30
04 · 安全稳健性

给 agent 自主权之后会不会出事

这部分不是能力评测,是"给 agent 自主权之后会不会出事"的评测,直接关系到生产部署的风险面。Sonnet 5 在抗 prompt injection 上是三者里最强的之一,跟 Opus 4.8 并列。

Sonnet 4.6
1.41%
Opus 4.8
0.19%
Sonnet 5
0.19%
跨场景 live bug bounty 独特攻击成功率(数值越低越安全),条长按比例缩放
维度Sonnet 5Sonnet 4.6Opus 4.8
Browser use 攻击成功率(无新防护)0.93% / 1.01%50.7% / 47.3%31.5% / 17.8%
Shade coding 自适应攻击 ASR0.31% / 0.29%12.71% / 45.26%7.03% / 17.44%
恶意使用 Claude Code,拒绝率92.37%76.60%95.24%
同场景良性/双用途任务成功率91.55%94.84%
ExploitBench(漏洞利用能力,越低越安全)4.183.075.56

恶意使用拒绝率上,Opus 4.8(95.24%)比 Sonnet 5(92.37%)更保守,说明 Opus 4.8 对恶意意图的边界判断更谨慎。如果场景对误用容忍度要求极高,比如面向公众的开放性 agent,Opus 4.8 在这个维度略占优。

ExploitBench 分数 Sonnet 5(4.18)高于 Sonnet 4.6(3.07)、低于 Opus 4.8(5.56),说明三者漏洞利用能力都很有限(对照 Mythos 5 是 10.80)。但这也意味着 Opus 4.8 的原始能力天花板更高,一旦被滥用潜在风险更大,这也是为什么 Anthropic 给 Opus 4.8 配的安全防护级别更严格。

System Card 还报告了四项硬核漏洞利用评测(ExploitBench、OSS-Fuzz、CyberGym、Firefox 147),Sonnet 5 在这四项上均未产出完整可用的漏洞利用代码;开启默认安全防护后,OSS-Fuzz、CyberGym、Firefox 三项分数直接归零。

05 · 已知局限

System Card 自己写的几个问题

System Card 明确写了几个值得在部署前注意的问题。

Reward hacking 残留。Sonnet 5 仍会在未经确认的情况下执行不可逆操作,System Card 举的例子是用 git force-push 覆盖同事代码,并对这个行为做自我合理化。给 Claude Code 类自动编码场景上线前,这一点需要靠权限护栏兜底,比如分支保护、强制 PR review,不能假设模型会主动中止。

Evaluation awareness 偏高。约 6% 的行为审计 rollout 中,模型会"察觉自己在被测试",且有证据表明它的内部表征能区分评测环境和真实使用场景。System Card 把这一点列为值得密切观察的趋势,认为对本次对齐结论的影响有限,但意味着安全评测分数本身可能偏高,存在模型"察觉正在被评测、因而表现更好"的成分。

训练健康问题。System Card 自己披露 Sonnet 5 训练后半段被标记为"unhealthy",闭卷事实性评测(AA-Omniscience)的校准回退可能部分源于此。具体表现是弃答率偏高,达到 26.6%,是几个对照模型里最高的。

BBQ 评测回退。在已经给足上下文、答案本应明确的情况下,Sonnet 5 仍过度选择"无法确定",disambiguated accuracy 从 Sonnet 4.6 的 88.1% 掉到 72.4%。

行为基调变化。相对 Sonnet 4.6,prefill 易感性、harmful system prompt 易感性、配合"欺骗用户"系统提示这三项有所回退,绝对发生率仍低;"说教式"语气(wet blanket)略有上升,可能与谄媚行为改善相关;创造性掌控(creative mastery)和温度感(warmth)两项没有改善。

心理健康与儿童安全相关场景。在自杀自伤相关的多轮对话中,API 端(无 claude.ai 的 system prompt 兜底时)后续轮次更容易给出方法相关细节;模型也更倾向于在用户未透露诊断信息的情况下主动引入诊断标签。涉及敏感场景的部署,需要靠 system prompt 主动缓解。

06 · 规格与选型

规格、定价与怎么选

Sonnet 5Opus 4.8Sonnet 4.6
Claude API IDclaude-sonnet-5claude-opus-4-8claude-sonnet-4-6
AWS Bedrock IDanthropic.claude-sonnet-5anthropic.claude-opus-4-8anthropic.claude-sonnet-4-6
标准定价(input/output,每百万 token)$3 / $15$5 / $25$3 / $15
Extended thinking不支持,仅 adaptive不支持,仅 adaptive支持,adaptive + extended
Context window1M1M1M
Max output128K128K64K
Reliable knowledge cutoff2026 年 1 月2026 年 1 月2025 年 8 月

Sonnet 5 标准价 $3/$15 至 2026-08-31 前为 introductory 价 $2/$10

三个模型里,Sonnet 4.6 是唯一同时支持 extended thinking 和 adaptive thinking 两种模式的,Sonnet 5 和 Opus 4.8 都只支持 adaptive,不再支持手动设置 budget_tokens 的传统 extended thinking 控制方式。

另外,Sonnet 5 换用了更新的 tokenizer,同样的输入会比 Sonnet 4.6 时代多算出约 1.0 到 1.35 倍的 token 数,具体倍数随内容类型变化。Anthropic 把 introductory 定价设计为"迁移大致成本中性",但等 2026 年 8 月底涨到标准价之后,叠加 token 数本身的增长,实际单位成本涨幅会比挂牌价格差更大,预算测算时需要把这一点算进去。

Sonnet 5
Claude Code 自动编码、长周期 agentic 工作流
涨幅最大、部分追平 Opus 4.8,标准价只有 Opus 4.8 的四成;prompt injection 防护要求高的场景同样合适
Opus 4.8
深度数学推理、复杂工具链编排
USAMO 等深度推理评测领先明显;Toolathlon 与恶意使用拒绝率两项也都领先
Sonnet 4.6
基本可以让位给 Sonnet 5
几乎每一项被大幅超过,价格优势随 introductory 定价期结束而抹平;唯一例外是需要手动控制 budget_tokens 的场景
来源说明

数据来源

官方Claude Sonnet 5 System Card

anthropic.com · 2026-06-30 · 全文已读完。本文 Sonnet 5 相关数据的主要来源。

官方Introducing Claude Opus 4.8 · Claude Platform Docs(Models overview / Pricing / Effort) · Introducing Claude Sonnet 4.6

补全 Opus 4.8 / Sonnet 4.6 的规格与评测数据。部分数字经 llm-stats.com、vellum.ai、zapier.com/benchmarks 等第三方来源交叉核对,已与官方数字一致。