基于 Anthropic / Princeton / Max Planck Institute 等多方研究

WhyTasteMatters

资源约束如何塑造人类不可替代的判断力

从 LLM 的 Taste 缺失看人类认知的结构性优势。一个反直觉的结论:人脑能做出 LLM 做不到的判断,不是因为它更强大,而是因为它更受限。

~4,255x

人脑压缩比

~71x

LLM 压缩比

人脑对经验的压缩压力远高于 LLM。Taste 就藏在这个差异里。

2026-04 · 两轮事实核查通过 · 41 条声明验证

问题的起源

一位物理教授的发现

Harvard 物理教授 Matthew Schwartz 用 Claude Opus 4.5,两周完成了一篇量子场论论文。这项工作如果由教授带研究生来做,通常需要一到两年。

Claude 极其能干,但 Schwartz 发现它缺少一个关键能力:

"I am more confident that the bottleneck is not creativity. LLMs are profoundly creative. They simply lack a sense of which paths might be fruitful before walking them. I think we can distill what is missing in current LLMs to a single word: Taste."

— Matthew Schwartz, "Vibe Physics: The AI Grad Student", Anthropic Research, 2026-03-23

Taste 不是创造力问题。Claude 的创造力很强,瓶颈在于筛选和判断:哪些方向值得走,哪些不值得。Schwartz 能快速判断一个研究方向有没有前途,Claude 只会机械地尝试所有可能方向。

这种判断力跨领域普适:科学、工程、设计、投资,任何需要在不确定性中做方向性判断的领域。

表面解释与深层问题

LLM 的优势,可能正是它的障碍

表面看,Taste 缺失有几个原因:训练数据只见成功路径、训练目标优化"看起来对"而非"判断对"、缺乏探索驱动等。这些多少都是可解决的工程问题。

但有一个更深的问题:如果 LLM 的架构优势(高容量、全信息访问)本身就是产生 Taste 的结构性障碍呢?

这引出本文的核心论点:资源约束是产生 Taste 的一条有效路径。人类因认知架构被锁定在这条路径上,而 LLM 尚未找到同等有效的替代路径。

压缩比的数学

一个简单的算术题

	输入	存储	压缩比
LLaMA 3.1 405B	~57.7 TB 文本	~810 GB (BF16)	~71x
人脑(量级估算)	~250 PB 感官输入	~58.75 TB (100T 突触 × 4.7 bits)	~4,255x

LLM 的 71 倍压缩本质上是统计模式提取:记住"什么词跟什么词一起出现"。人脑 4000 倍以上的压缩,必然涉及大量抽象、层级化、跨模态整合。同样的经验,人脑被迫用小得多的"存储预算"装下。

这个差异不会是偶然。要解释它从何而来,有四条彼此独立的研究线索;把它们接起来,正好是一条从物理层约束通向方向性判断力的链子。

重要限定:这个对比是启发性类比,不是严格的同类度量。两者的"压缩"在操作层面有本质差异:LLM 是将文本统计规律一次性编码到参数中;人脑是将多模态感官流在数十年的在线学习中编码到突触连接里。此外,人脑一侧的"输入"用的是含大量冗余的原始感官吞吐,LLM 用的是已清洗语料,这会系统性放大人脑一侧的比率。将两个不同域的比率并置,前提是接受它们在"从大量输入中提取可用表征"这个抽象层面具有可比性。

数据来源:突触 4.7 bits — Bartol et al. (2015, eLife, Salk Institute),海马体测量,外推全脑为简化假设;感官带宽 ~1 Gbps — Zheng & Meister (Caltech/Neuron, 2024);LLM 权重不严格等于"压缩后存储量"。

核心论证

从约束到 Taste 的四步

四条独立的研究线索,拼在一起构成一条从物理层约束到方向性判断力的逻辑链。每一步有其实证基础,但将它们串联为因果链是本文的原创综合,不是任何单一论文的结论。

Gigerenzer & Brighton, Max Planck Institute, "Homo Heuristicus" (2009)

少即是多:忽略信息可以提升判断

一个反直觉的发现:使用更少信息,预测准确率反而更高。只看一个线索的 take-the-best 启发式,在 20 个跨领域数据集上平均预测准确率高于多元回归(Czerlinski et al. 1999),后续研究中也优于神经网络(Brighton 2006)。

机制是 bias-variance tradeoff:全信息模型 bias 低但 variance 高,容易过拟合;启发式 bias 稍高但 variance 大幅降低,泛化更好。

这为整条论证链提供了终点:如果在高不确定性环境中"果断忽略大部分信息"本身就可能是有效策略,那产生这种"忽略能力"的机制就值得追问。

学术争议: Less-is-More 并非学界共识。Kahneman 阵营认为启发式常导致系统性偏误;而且这一效应高度依赖环境结构(噪声水平、线索冗余度与权重偏斜、样本大小),Dougherty et al. (2008) 指出它只在特定条件下成立,Bröder (2010) 用 Gigerenzer 自己的数据重新分析后质疑其普遍性。本文采用这一框架,是因为它对"约束为何可能是优势"的解释最有力,但这是活跃争论而非定论,它的条件性也会一路传递到本文结论。

Turner & Arumugam, Princeton 2025 + Lieder & Griffiths, Resource Rationality (2020)

容量约束迫使取舍,取舍产生结构

Turner & Arumugam 的形式化结论:容量约束会在任务之间制造结构性 trade-off,迫使 agent 在"哪些区分值得保留"上做取舍(state chunking)。论文把这视为智能范围的上界、是一种代价,而非优势:被约束的 agent 只能对环境做粗粒度化,并因此损失特定任务上的性能。

Lieder & Griffiths 从另一个角度论证同一件事:有限计算资源下的最优策略不是精确求解,而是"足够好"的近似,这些近似恰好对应认知心理学中的启发式。

人脑工作记忆约 3-5 个 chunks(Cowan 2001),被迫只保留最本质的模式。LLM 的高容量让它不需要做这种取舍。

本文推论(非论文原文结论): 约束迫使的粗粒度化,在开放环境中可能恰好产生对方向性判断有用的抽象。论文本身只讲到"约束带来取舍与性能代价",从代价到"有用的判断力"这一步是本文的推理跳跃,读者应注意。

Webb, Frankland & Cohen, Trends in Cognitive Sciences, 2024(综述)

瓶颈迫使网络学会关系,而非表面

一系列工作(Webb et al. 2020、Kerg et al. 2022、Altabaa et al. 2023,由上述 2024 年综述系统梳理)发现:在神经网络中人为加入"关系瓶颈"(阻断对个体属性的直接接入,只允许关系信息通过),网络会自动提取关系性结构而非表面特征,泛化显著变好。

要注意一个区分:这里的"瓶颈"约束的是信息的种类(只让关系通过),和本文前几步讲的容量/总量瓶颈不是同一回事,一个限制"信息是什么类型",一个限制"信息有多少"。两者机制不同,但指向同一个方向:被限制的系统被迫学结构,而不是死记细节。

人脑同时受这两类约束:层级式的容量瓶颈(感觉→注意力→工作记忆→长期记忆,每一层都强制压缩),叠加对关系结构的偏好。标准 Transformer 两者都更弱,自注意力让每个 token 都能访问其余所有 token,推理时几乎不在信息流上设任何限制。(末句为本文延伸推论,非论文结论)

核心: 瓶颈不是缺陷,而是让系统学会结构性推理、而非死记硬背的归纳偏置。

Karl Friston, UCL, Free Energy Principle (2006/2009/2010)

预测驱动的压缩天然趋向简洁因果模型

FEP 主张:大脑的根本功能是最小化预测误差,即建立一个用最少信息量预测最多现象的内部模型。预测成功的部分被"解释掉",只有意外才向上传递。

这天然趋向 Occam's razor 的生物学实现,即用最少假设解释最多现象。人脑不是试图记住世界的所有细节,而是不断压缩出一个尽可能简洁但足够用的世界模型。

LLM 也做"预测下一个 token",但其压缩的优化目标(保真度/困惑度)和大脑的(行为适应度)在机制上有根本差异。LLM 是否也形成了某种内部因果模型,学界尚有争议(Li et al. 2023)。

核心: 预测驱动的压缩产生简洁因果模型,即"哪些变量真正重要"的直觉,这正是判断力的认知基座。两点说明:FEP 作为大一统脑理论本身存在"不可证伪/循环"的批评(如 Williams 2018),本文只取其中"预测驱动的压缩趋向简洁模型"这一与预测编码实验相符的较具体层面;而从感知理论推广到"方向性判断"则是本文的延伸。

四步合一:约束 → 取舍 → 结构性表征 → 简洁因果模型 → 方向性直觉 = Taste

路径不通

LLM 的路径为什么走不通

把这条链子反过来看 LLM,就明白问题不在"还不够好"。算力充裕,模型不必做极致压缩;不被迫抽象,就倾向于保留尽可能多的统计关联;于是在不确定的开放环境里,它更容易过拟合到表面模式,而难以果断筛掉无关方向。结果就是 Taste 的缺失。也就是说,LLM 的架构优势(高容量、宽信息流)恰恰是产生 Taste 的结构性障碍。

Gigerenzer 的一个区分能说清这里的关键:

Accuracy-effort tradeoff:"更多信息太贵,所以用启发式。"这是成本问题,可以靠更便宜的算力解决。

Less-is-more:"更多信息本身就会拉低准确性。"这无法靠更多算力解决。

LLM 面临的是后者。这不是算力问题。

边界条件

但"约束产生 Taste"说满了就不准确

有两个系统看起来是反例,得先讲清楚,这条论点才站得住。

AlphaGo / AlphaProof: AlphaGo 通过 self-play 发展出超人"棋感";AlphaProof 在 2024 年 IMO 上达到银牌水平(28/42 分,差一分到金牌)。这算不算无约束系统也能产生 Taste 的反例?

关键变量可能不是"约束"本身,而是反馈密度 × 环境封闭度。围棋和竞赛数学虽难,却有两个特征:成败信号明确,且能大规模生成训练样本。这让 self-play 成为一条等效的"压缩路径":海量试错炼出的 value function,在功能上类似人类的直觉判断。

Schwartz 说的 Taste 出现在另一端:反馈延迟数月甚至数年、没有清晰对错信号、无法大规模生成样本。在这类开放环境里,人类的约束式压缩(几十年缓慢积累的直觉)仍是目前唯一已知的有效路径。

修正后的边界:本文论点不是"约束是 Taste 的唯一来源",而是"在反馈稀疏的开放环境中,约束式压缩是目前已知的唯一有效路径"。AI 在反馈密集的封闭与半封闭领域已经找到替代路径(self-play),在真正开放的领域尚未找到。

积极信号与可证伪条件

什么样的证据会推翻它

把边界收窄到这一步,论点反而更结实,但它仍是一个可能被推翻的判断。先看一个正在逼近边界的信号。

复旦 / OpenMOSS 的 RLCF 工作(arXiv 2603.14473, 2026-03)用引用量差异构造约 70 万正负样本对,训练出 Scientific Judge,在判断论文影响力上超过 GPT-5.2 与 Gemini-3 Pro。值得注意的是,同一工作还把这个 Judge 用作奖励模型,训练了 Scientific Thinker 去主动提出更高潜在影响力的研究想法,而不只是事后品鉴,这一步恰好踩在本文下面列出的第一个可证伪条件上。

不过它离推翻本文论点还有距离:Thinker 的"高影响力"仍由那个用引用量训练出来的 Judge 来打分,是一个封闭的代理闭环,不是开放世界里延迟数月、稀疏而真实的反馈;它处理的也是摘要级别的偏好对比,而非 Schwartz 描述的长周期方向判断。它是对论点的真实压力,但还不是反例。

本文论点的可证伪条件:出现以下之一,本论点被严重削弱:

1. 一个未经特殊约束设计的 LLM,在没有人类方向性指导的情况下,在反馈稀疏的开放领域(如理论物理、原创产品设计)持续做出正确的方向性判断,且这种表现是系统性的、而非统计巧合;

2. 模型蒸馏或信息瓶颈训练被证明能系统性地产生类 Taste 的方向性判断能力(这反而支持"约束有效",但说明人类生物约束不是唯一路径)。

第二条已被 RLCF 部分触及,第一条尚未发生。研究者应带着这些条件持续检验,而不是把本文论点当成不可修正的定论。

在被证伪之前,这个判断对每一个用 AI 工作的人都有直接含义。理论部分到此为止,接下来是它落到日常工作里的具体形态。

实践篇

人 + AI 的协作原理与行动指南

重新理解关系

两个互补的认知系统

如果资源约束确实是 Taste 的来源,那人和 AI 的关系就不该按"谁取代谁"来想:他们的认知结构本来就被压在了不同的位置上。

流行叙事要么说"AI 是工具,人是使用者"(把 AI 当锤子),要么说"AI 取代人"(把两者放在同一维度竞争)。这两种都不够准确。更贴切的理解是:在当前的能力分布下,人和 AI 各自在不同类型的认知任务上有比较优势。

AI 的比较优势:穷举搜索、逻辑推导、不知疲倦、覆盖面广,类似 Kahneman 所说的"慢思考"(但比人快得多)。

人的比较优势:方向性直觉、异常检测、约束条件下的快速判断,几十年试错经验被压缩后的产物。

这不是 Kahneman System 1/2 理论的直接套用(那是描述同一主体内的两种加工模式),而是一个基于当前能力边界的分工观察:Schwartz 两周完成论文,靠的是一个有 taste 的教授负责方向判断,加上一个不知疲倦的 AI 研究生负责执行,超越了两者任何一方独立工作的效率。

人的核心价值:做 AI 的 System 1

方向判断:这条路值不值得走?(Taste)

异常检测:这个结果"感觉不对"。Schwartz 发现 Claude 伪造数据就是靠这种直觉。

质量标准:什么算"足够好"?什么是"看起来好但实际有问题"?

问题定义:最难的不是解决问题,是知道该解决什么问题。

"Expert wrongness-detection is the key human capability — the ability to feel when something is wrong."

— Nova Spivack

协作框架

人机认知栈

越往上,不确定性越高,越需要 taste;越往下,确定性越高,AI 可以全权负责。

问题定义 & 方向选择

该解决什么问题?走哪条路?

人主导

方案设计 & 质量标准

什么算好?什么是陷阱?

人 + AI

执行 & 实现

按这个方向做出来

AI + 人审视

细节打磨 & 格式化

调整格式、修复小问题

AI 主导

Schwartz 的实践完美符合这个模型:他选题、定方向、判断对错;Claude 做计算、写代码、画图。

实证

从一个案例到 40 万次会话

Schwartz 的例子说服力很强,但终究是一个人的经历。这套分工如果真的普遍,就该在大样本里显出同样的形状。2026 年 6 月,Anthropic 经济研究团队的一项研究正好把尺度放到了这一步:隐私保护下分析约 23.5 万人、约 40 万次 Claude Code 交互式会话(2025 年 10 月至 2026 年 4 月)。结果,真实世界里的分工,几乎就是上面那张认知栈图。

70% / 20%

人主导的决策占比

中位数上,人做约 70% 的"做什么"决策(规划),只做约 20% 的"怎么做"决策(执行)。方向归人,执行归 agent。

2×+

专家档 vs 新手档成功率

专家档达到已验证成功的频率,是新手档的两倍多。决定成败的是任务级的领域专长。

<7pp

十大职业的成功率差距

产出代码的会话里,十大职业群成功率相差不到 7 个百分点。编程背景几乎不决定成败。

最值得注意的是研究怎么定义"专长":它跟职业头衔无关,是任务级的,判断信号有三个,其中两个是:用户要求 AI 验证什么,以及到底是用户在纠正 AI、还是 AI 在纠正用户。这恰好就是本文说的方向判断与异常检测。Schwartz 靠它发现 Claude 伪造数据;在 40 万次会话里,它换来的是两倍的成功率。

判断力能换来两倍的成功率,这是好的一面。但同一套分工里藏着一个前提:它成立的条件,是人始终握着最上面那层的方向判断。而越是顺手地把工作交给 AI,这层能力反而越会不知不觉地退化。

悖论

Taste 的悖论:用得越多,越容易失去

三个已被研究观察到的风险:

-17%

掌握度下降 · 约两个字母等级

技能萎缩

AI 辅助组的编程掌握度比手写代码组低 17%,最大差距出现在 debugging,恰恰是发现 AI 犯错所需的能力。

-5.2pp

发现缺失上下文的能力降幅

审视能力下降

AI 产出越精致,人越不质疑其推理(-3.1pp),越不容易发现缺失的上下文。越好看的输出,换来越少的批判性思考。

∞

自我消解的循环 · 非测量值

监督悖论

有效使用 AI 需要监督能力 → 监督能力来自亲手做的经验 → AI 使用减少亲手做的机会。一个自我消解的循环。

"Having my skills atrophy is primarily gonna be problematic with respect to my ability to safely use AI for the tasks that I care about."

— Anthropic 内部工程师, Internal Study, 2025-12

行动指南

保持 Taste 的三个原则

既然用得越多越容易丢,维持 Taste 不能靠自觉,要靠几条刻意设定的规则。

原则 1:做骑手,不做乘客

Spivack 的骑手-马匹隐喻:骑手不只是给方向,而是持续感知马的状态:犹豫、偏移、过度自信。不要"发个 prompt 等结果",而要全程参与、实时纠偏。把任务拆成阶段,每个阶段都审视方向、挑战假设、修正路线。

原则 2:保持"做过"的状态

压缩比的启示:Taste 来自亲身试错的压缩,不是阅读产生的。定期做一些"不用 AI"的工作,刻意维持自己的 System 1 判断力。Schwartz 做了 25 年理论物理,所以才能发现 Claude 的错误。

"Every once in a while, even if I know that Claude can nail a problem, I will not ask it to. It helps me keep myself sharp."

— Anthropic 内部工程师

原则 3:把精力花在 AI 最弱的环节

不应在 AI 擅长的执行层消耗注意力,而应把认知资源集中在问题定义、方向选择、异常识别、质量判断。越高层的判断越不可委托:战略 > 设计 > 实现 > 细节。

落到不同角色

研究者 / 专业人士

护城河不是"知道多少",而是"能判断什么值得做"。用 AI 扩大执行带宽,同时定期做无 AI 的深度工作,维持方向判断能力。

管理者 / 决策者

别只看"AI 提升了多少效率",也要盯"团队的判断力是否在萎缩"。给团队(尤其初级成员)留出不用 AI 的练习空间,把人力从执行层重新部署到方向判断层。

学生 / 新人

最危险的路是一开始就过度依赖 AI,跳过建立 taste 所需的试错期。先亲手做到有基本判断力,再把 AI 当加速器引入。

"Get to know these models. Learn what they are good at and what they fail at."

— Matthew Schwartz

总结

约束塑造智慧

资源约束是产生 Taste 的一条有效路径,可能是目前在开放环境中唯一已被验证的路径。人脑之所以走上这条路,不是因为它选择了更好的算法,而是因为它别无选择。

人脑被迫在信息洪流中只保留最本质的模式,产生了快速判断的启发式。LLM 倾向于保留远多于人脑的统计关联,目前尚未找到在反馈稀疏的开放环境中发展等效判断力的路径。

这不是一个永恒的结论,而是一个基于当前证据的判断,附带了明确的可证伪条件。但在被证伪之前,它对每一个使用 AI 的人都有实际意义:

AI 时代,人的价值不在于做得更快更多,而在于判断什么值得做。Taste 是数十年试错经验被极致压缩后的产物,它让人能在一秒内否决 AI 需要一小时才能证伪的方向。保持这种判断力,是个体能为人机协作体贡献的最稀缺资源。

附录

常见反驳

三个看似直接反驳本文论点的事实,以及本文的回应。

1. Reasoning models(o1/o3/Extended Thinking)引入了"深度思考",不就是人工的信息瓶颈吗?

CoT 是推理时的计算约束,不是表征层的容量约束。模型仍然保有完整的参数空间和全部知识,CoT 只是让它"想得更久",而非"被迫丢弃信息"。类比:一个图书馆管理员花更多时间挑书(CoT),和一个只有一个书架、被迫精选藏书的读者(人脑),"品味"的来源不同。前者的品味来自搜索策略的质量,后者来自存储约束迫使的取舍。Reasoning models 提升的是搜索效率,但 Schwartz 观察到的 Taste 是在不需要搜索的情况下就知道方向,这是表征层的能力,不是搜索层的。

2. Scaling Laws 表明更大模型一致地泛化更好,如果"约束产生智慧",为什么更多参数反而更强?

两者在不同层面运作。更大模型在已知任务上泛化更好(文本预测、推理、知识问答),这无争议。但 Schwartz 观察到的 Taste 缺失恰恰出现在模型已经极其强大(Opus 4.5)的时候,说明 scaling 能解决的问题和 Taste 问题不在同一维度。Taste 不是"更强的泛化",而是"在不确定性中判断哪个方向值得走",一种 meta-level 的方向性直觉,而非 object-level 的任务表现。

3. 模型蒸馏不就是"强制压缩"吗?

蒸馏确实是率失真意义上的压缩,但有一个关键差异:蒸馏的优化目标是"尽可能保留教师模型的输出分布",即保真度。人脑的压缩没有"保真"目标,只有生存适应度的间接反馈。正因为没有保真约束,人脑的压缩才产生了高度主观的、面向特定生态位的启发式。蒸馏产生的是"更小的通才",人脑产生的是"有偏见的专家",后者才是 Taste。

参考文献

Sources

核心来源

Schwartz, M.D. "Vibe Physics: The AI Grad Student." Anthropic Research, 2026-03-23
Tong, J. et al. "AI Can Learn Scientific Taste." arXiv:2603.14473, 2026-03 (Fudan / OpenMOSS)。训练 Scientific Judge(品鉴)与 Scientific Thinker(主动提出高影响力想法)两个模型。
Pan, L. et al. "Large Language Models Think Too Fast To Explore Effectively." arXiv:2501.18009, 2025 (Georgia Tech)
Spivack, N. "The Horse Has No Rider: Why Autonomous AI Science Gets It Wrong." 2026-03-23
Ding, A.W. & Li, S. "Generative AI lacks the human creativity to achieve scientific discovery from scratch." Nature Scientific Reports, 2025-03

认知科学理论

Gigerenzer, G. & Brighton, H. "Homo Heuristicus: Why Biased Minds Make Better Inferences." Topics in Cognitive Science, 2009 (Max Planck Institute)
Bröder, A. 对 "Homo Heuristicus" 的评论与再分析,Topics in Cognitive Science, 2010(质疑启发式普遍性的代表性反方)
Lieder, F. & Griffiths, T.L. "Resource-rational analysis: Understanding human cognition as the optimal use of limited computational resources." Behavioral and Brain Sciences, 43, e1, 2020
Turner, C.R. & Arumugam, D. "Trade-Offs Between Tasks Induced by Capacity Constraints Bound the Scope of Intelligence." Princeton, 2025
Webb, T.W., Frankland, S.M. & Cohen, J.D. "The Relational Bottleneck as an Inductive Bias for Efficient Abstraction." Trends in Cognitive Sciences, 28(9):829–843, 2024(综述;一手结果见 Webb et al. 2020、Kerg et al. 2022、Altabaa et al. 2023)
Friston, K. "The free-energy principle: a unified brain theory?" Nature Reviews Neuroscience, 2010 (UCL)
Williams, D. 等对自由能原理"不可证伪/循环"问题的批评(2018;另见 Colombo & Wright 2021)
Bartol, T.M. et al. "Nanoconnectomic upper bound on the variability of synaptic plasticity." eLife, 2015 (Salk Institute)
Cowan, N. "The magical number 4 in short-term memory." Behavioral and Brain Sciences, 24, 87-114, 2001
Zheng, J. & Meister, M. "The Unbearable Slowness of Being." Neuron, 2024 (Caltech)

Anthropic 研究

Huang, S. et al. "How AI Is Transforming Work at Anthropic." Anthropic Research, 2025-12-02
Hitzig, Z., Massenkoff, M., Lyubich, E., Heller, R. & McCrory, P. "Agentic Coding and Persistent Returns to Expertise." Anthropic Economic Research, 2026-06-16(约 23.5 万人 / 40 万次 Claude Code 会话)
Shen, J.H. & Tamkin, A. "How AI Assistance Impacts the Formation of Coding Skills." arXiv:2601.20245, 2026
Swanson, K. et al. "Anthropic Education Report: The AI Fluency Index." Anthropic Research, 2026-02-23

其他

Delétang, G. et al. "Language Modeling Is Compression." DeepMind, 2023 (ICLR 2024)
Shannon, C.E. "Prediction and Entropy of Printed English." Bell System Technical Journal, 1951