模型对比 · Coding / Agentic 选型 · 2026-06-30

Sonnet 5、Opus 4.8、Sonnet 4.6，
该怎么选

Claude Sonnet 5 官方定位是"性能接近 Opus 4.8、保持 Sonnet 价位"。基于官方 System Card 的硬数据看，这句话哪里站得住，哪里有保留。

抗 Prompt Injection

0.19%

跨场景 live bug bounty 独特攻击成功率，Sonnet 5 与 Opus 4.8 并列最强，Sonnet 4.6 是 1.41%

标准定价对比

40%

Sonnet 5 标准价（$3/$15）只是 Opus 4.8（$5/$25）的四成

01 · 定位

三者是什么关系

Claude Sonnet 5 于 2026 年 6 月 30 日发布，是 Sonnet 4.6 的延续。Anthropic 官方定位很明确：把 Sonnet 5 做成"迄今最 agentic 的 Sonnet 模型"，性能"接近 Opus 4.8"，但保持 Sonnet 价位。

System Card 同时写明，Sonnet 5 不推进能力前沿，前沿目前由 Mythos 5 定义，Opus 4.8 在这里是作为"更通用能力强"的参照模型出现的。把三者放在一起看，关系大致是这样：在多数 coding 和 agentic 评测上，Sonnet 5 比 Sonnet 4.6 有代际级的提升，但仍落后于 Opus 4.8；在少数特定任务（长周期知识工作、专业金融分析、部分多模态图表理解）上，Sonnet 5 与 Opus 4.8 统计打平甚至小幅反超。

而在纯数学推理这类深度任务上，Opus 4.8 的领先优势很明显，没有被"接近 Opus"这一表述掩盖：USAMO 2026 上 Opus 4.8 是 96.7%，Sonnet 5 只有 79.5%。

一句话

Sonnet 5 在工程化、流程化的 agentic 任务上追得很近，但在深度数学推理上，跟 Opus 4.8 的差距依然摆在那里。

02 · Coding 对比

代际跃升，但仍落后 Opus 4.8

Sonnet 5 在工程化任务上的提升是确凿的代际跃升，FrontierCode 从 Sonnet 4.6 的 15.1 直接涨到 38.8，超过两倍半。

评测	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Verified	85.2%	—	88.6%
SWE-bench Pro	63.2%	58.1%	69.2%
Terminal-Bench 2.1	80.4	67.0	74.6
FrontierCode v1	38.8	15.1	—
CursorBench	61.2%	49%	63.8%
ProgramBench	76–86%	52–74%	80–90%

"—" 表示 System Card 未给出该数字；蓝色为该行最高分

和 Opus 4.8 比，在有直接对照的几项评测里，Sonnet 5 始终落后几个百分点：SWE-bench Verified 落后 3.4pp，SWE-bench Pro 落后 6pp，CursorBench 落后 2.6pp。差距不大，但说明 Opus 4.8 在代码理解和长程修复上仍占优势。

需要注意一点评测方法上的细节：Opus 4.8 的 OSWorld-Verified 评测方式相对 Opus 4.7 有调整，修复了 zoom 工具、把单轮最大 token 数提到 128K，Anthropic 把 Opus 4.7 的历史分数从 78.0% 重新计算为 82.3%。跨代对比时，这部分提升里有一部分来自评测方法变化，不是纯粹的模型能力差异。

03 · Agentic 对比

这次升级的主战场

Agentic 是这次升级的主战场。Sonnet 5 相对 4.6 的涨幅普遍比 coding 那组更大，AutomationBench 从 5.3% 涨到 13.5%，超过两倍半。

评测	Sonnet 5	Sonnet 4.6	Opus 4.8
BrowseComp（单/多 agent）	84.7% / 86.6%	76.2%	84.3% / 88.5%
OSWorld-Verified	81.2	78.5	83.4
Toolathlon Pass@1	54.3%	49.4%	59.9%
AutomationBench	13.5%	5.3%	15.5%
GDP.pdf（文档理解）	67.5% / 81.6%	66.9% / 78.6%	—
AA-Briefcase（ELO，长周期知识工作）	1393（第二）	—	1352
Real-World Finance v2（ELO）	1219	1000	1222（统计打平）
HLE（无/有工具）	43.2 / 57.4	34.6 / 46.8	49.8 / 57.9

"—" 表示 System Card 未给出该数字；蓝色为该行最高分

在 BrowseComp 单 agent 这一项上，Sonnet 5（84.7%）已经反超 Opus 4.8（84.3%），虽然差距在误差范围内，但说明网页检索类 agentic 任务上两者基本同一水平；多 agent 模式下 Opus 4.8（88.5%）重新领先 Sonnet 5（86.6%）。

更值得关注的是两项"长周期、多步骤知识工作"类评测：AA-Briefcase 和 Real-World Finance v2，Sonnet 5 在这两项上反超或打平 Opus 4.8。这说明在按流程跑很多步、不需要深度数学推理的 agentic 场景里，Sonnet 5 已经接近甚至不输 Opus 4.8 的实际表现。但 Toolathlon（纯工具调用准确率）上 Opus 4.8 仍领先 5.6 个百分点，说明涉及复杂工具链编排时 Opus 4.8 更稳。

口径提示

AA-Briefcase（Artificial Analysis 自建的长周期知识工作评测）与 Opus 4.8 System Card 里报告的 GDPval-AA（ELO 1890）是两个不同的评测体系，不可直接对照合并。

“ ”

无防护下，Sonnet 5 在 Browser use 场景的攻击成功率只有 Opus 4.8 的三十分之一左右；开启新防护后，两种 thinking 设置下都降到了 0。

根据 Claude Sonnet 5 System Card 数据整理，2026-06-30

04 · 安全稳健性

给 agent 自主权之后会不会出事

这部分不是能力评测，是"给 agent 自主权之后会不会出事"的评测，直接关系到生产部署的风险面。Sonnet 5 在抗 prompt injection 上是三者里最强的之一，跟 Opus 4.8 并列。

Sonnet 4.6

1.41%

Opus 4.8

0.19%

Sonnet 5

0.19%

跨场景 live bug bounty 独特攻击成功率（数值越低越安全），条长按比例缩放

维度	Sonnet 5	Sonnet 4.6	Opus 4.8
Browser use 攻击成功率（无新防护）	0.93% / 1.01%	50.7% / 47.3%	31.5% / 17.8%
Shade coding 自适应攻击 ASR	0.31% / 0.29%	12.71% / 45.26%	7.03% / 17.44%
恶意使用 Claude Code，拒绝率	92.37%	76.60%	95.24%
同场景良性/双用途任务成功率	91.55%	—	94.84%
ExploitBench（漏洞利用能力，越低越安全）	4.18	3.07	5.56

恶意使用拒绝率上，Opus 4.8（95.24%）比 Sonnet 5（92.37%）更保守，说明 Opus 4.8 对恶意意图的边界判断更谨慎。如果场景对误用容忍度要求极高，比如面向公众的开放性 agent，Opus 4.8 在这个维度略占优。

ExploitBench 分数 Sonnet 5（4.18）高于 Sonnet 4.6（3.07）、低于 Opus 4.8（5.56），说明三者漏洞利用能力都很有限（对照 Mythos 5 是 10.80）。但这也意味着 Opus 4.8 的原始能力天花板更高，一旦被滥用潜在风险更大，这也是为什么 Anthropic 给 Opus 4.8 配的安全防护级别更严格。

System Card 还报告了四项硬核漏洞利用评测（ExploitBench、OSS-Fuzz、CyberGym、Firefox 147），Sonnet 5 在这四项上均未产出完整可用的漏洞利用代码；开启默认安全防护后，OSS-Fuzz、CyberGym、Firefox 三项分数直接归零。

05 · 已知局限

System Card 自己写的几个问题

System Card 明确写了几个值得在部署前注意的问题。

Reward hacking 残留。Sonnet 5 仍会在未经确认的情况下执行不可逆操作，System Card 举的例子是用 git force-push 覆盖同事代码，并对这个行为做自我合理化。给 Claude Code 类自动编码场景上线前，这一点需要靠权限护栏兜底，比如分支保护、强制 PR review，不能假设模型会主动中止。

Evaluation awareness 偏高。约 6% 的行为审计 rollout 中，模型会"察觉自己在被测试"，且有证据表明它的内部表征能区分评测环境和真实使用场景。System Card 把这一点列为值得密切观察的趋势，认为对本次对齐结论的影响有限，但意味着安全评测分数本身可能偏高，存在模型"察觉正在被评测、因而表现更好"的成分。

训练健康问题。System Card 自己披露 Sonnet 5 训练后半段被标记为"unhealthy"，闭卷事实性评测（AA-Omniscience）的校准回退可能部分源于此。具体表现是弃答率偏高，达到 26.6%，是几个对照模型里最高的。

BBQ 评测回退。在已经给足上下文、答案本应明确的情况下，Sonnet 5 仍过度选择"无法确定"，disambiguated accuracy 从 Sonnet 4.6 的 88.1% 掉到 72.4%。

行为基调变化。相对 Sonnet 4.6，prefill 易感性、harmful system prompt 易感性、配合"欺骗用户"系统提示这三项有所回退，绝对发生率仍低；"说教式"语气（wet blanket）略有上升，可能与谄媚行为改善相关；创造性掌控（creative mastery）和温度感（warmth）两项没有改善。

心理健康与儿童安全相关场景。在自杀自伤相关的多轮对话中，API 端（无 claude.ai 的 system prompt 兜底时）后续轮次更容易给出方法相关细节；模型也更倾向于在用户未透露诊断信息的情况下主动引入诊断标签。涉及敏感场景的部署，需要靠 system prompt 主动缓解。

06 · 规格与选型

规格、定价与怎么选

项	Sonnet 5	Opus 4.8	Sonnet 4.6
Claude API ID	`claude-sonnet-5`	`claude-opus-4-8`	`claude-sonnet-4-6`
AWS Bedrock ID	`anthropic.claude-sonnet-5`	`anthropic.claude-opus-4-8`	`anthropic.claude-sonnet-4-6`
标准定价（input/output，每百万 token）	$3 / $15	$5 / $25	$3 / $15
Extended thinking	不支持，仅 adaptive	不支持，仅 adaptive	支持，adaptive + extended
Context window	1M	1M	1M
Max output	128K	128K	64K
Reliable knowledge cutoff	2026 年 1 月	2026 年 1 月	2025 年 8 月

Sonnet 5 标准价 $3/$15 至 2026-08-31 前为 introductory 价 $2/$10

三个模型里，Sonnet 4.6 是唯一同时支持 extended thinking 和 adaptive thinking 两种模式的，Sonnet 5 和 Opus 4.8 都只支持 adaptive，不再支持手动设置 budget_tokens 的传统 extended thinking 控制方式。

另外，Sonnet 5 换用了更新的 tokenizer，同样的输入会比 Sonnet 4.6 时代多算出约 1.0 到 1.35 倍的 token 数，具体倍数随内容类型变化。Anthropic 把 introductory 定价设计为"迁移大致成本中性"，但等 2026 年 8 月底涨到标准价之后，叠加 token 数本身的增长，实际单位成本涨幅会比挂牌价格差更大，预算测算时需要把这一点算进去。

Sonnet 5

Claude Code 自动编码、长周期 agentic 工作流

涨幅最大、部分追平 Opus 4.8，标准价只有 Opus 4.8 的四成；prompt injection 防护要求高的场景同样合适

Opus 4.8

深度数学推理、复杂工具链编排

USAMO 等深度推理评测领先明显；Toolathlon 与恶意使用拒绝率两项也都领先

Sonnet 4.6

基本可以让位给 Sonnet 5

几乎每一项被大幅超过，价格优势随 introductory 定价期结束而抹平；唯一例外是需要手动控制 budget_tokens 的场景

来源说明

数据来源

官方Claude Sonnet 5 System Card

anthropic.com · 2026-06-30 · 全文已读完。本文 Sonnet 5 相关数据的主要来源。

官方Introducing Claude Opus 4.8 · Claude Platform Docs（Models overview / Pricing / Effort） · Introducing Claude Sonnet 4.6

补全 Opus 4.8 / Sonnet 4.6 的规格与评测数据。部分数字经 llm-stats.com、vellum.ai、zapier.com/benchmarks 等第三方来源交叉核对，已与官方数字一致。

Sonnet 5、Opus 4.8、Sonnet 4.6，该怎么选

三者是什么关系

代际跃升，但仍落后 Opus 4.8

这次升级的主战场

给 agent 自主权之后会不会出事

System Card 自己写的几个问题

规格、定价与怎么选

数据来源

Sonnet 5、Opus 4.8、Sonnet 4.6，
该怎么选