WhyTasteMatters
资源约束如何塑造人类不可替代的判断力
从 LLM 的 Taste 缺失看人类认知的结构性优势。一个反直觉的结论:人脑能做出 LLM 做不到的判断,不是因为它更强大,而是因为它更受限。
一位物理教授的发现
Harvard 物理教授 Matthew Schwartz 用 Claude Opus 4.5,两周完成了一篇量子场论论文。这项工作如果由教授带研究生来做,通常需要一到两年。
Claude 极其能干,但 Schwartz 发现它缺少一个关键能力:
"I am more confident that the bottleneck is not creativity. LLMs are profoundly creative. They simply lack a sense of which paths might be fruitful before walking them. I think we can distill what is missing in current LLMs to a single word: Taste."
Taste 不是创造力问题。Claude 的创造力很强,瓶颈在于筛选和判断:哪些方向值得走,哪些不值得。Schwartz 能快速判断一个研究方向有没有前途,Claude 只会机械地尝试所有可能方向。
这种判断力跨领域普适:科学、工程、设计、投资,任何需要在不确定性中做方向性判断的领域。
LLM 的优势,可能正是它的障碍
表面看,Taste 缺失有几个原因:训练数据只见成功路径、训练目标优化"看起来对"而非"判断对"、缺乏探索驱动等。这些多少都是可解决的工程问题。
但有一个更深的问题:如果 LLM 的架构优势(高容量、全信息访问)本身就是产生 Taste 的结构性障碍呢?
这引出本文的核心论点:资源约束是产生 Taste 的一条有效路径。人类因认知架构被锁定在这条路径上,而 LLM 尚未找到同等有效的替代路径。
一个简单的算术题
| 输入 | 存储 | 压缩比 | |
|---|---|---|---|
| LLaMA 3.1 405B | ~57.7 TB 文本 | ~810 GB (BF16) | ~71x |
| 人脑(量级估算) | ~250 PB 感官输入 | ~58.75 TB (100T 突触 × 4.7 bits) | ~4,255x |
LLM 的 71 倍压缩本质上是统计模式提取:记住"什么词跟什么词一起出现"。人脑 4000 倍以上的压缩,必然涉及大量抽象、层级化、跨模态整合。同样的经验,人脑被迫用小得多的"存储预算"装下。
这个差异不会是偶然。要解释它从何而来,有四条彼此独立的研究线索;把它们接起来,正好是一条从物理层约束通向方向性判断力的链子。
重要限定:这个对比是启发性类比,不是严格的同类度量。两者的"压缩"在操作层面有本质差异:LLM 是将文本统计规律一次性编码到参数中;人脑是将多模态感官流在数十年的在线学习中编码到突触连接里。此外,人脑一侧的"输入"用的是含大量冗余的原始感官吞吐,LLM 用的是已清洗语料,这会系统性放大人脑一侧的比率。将两个不同域的比率并置,前提是接受它们在"从大量输入中提取可用表征"这个抽象层面具有可比性。
数据来源:突触 4.7 bits — Bartol et al. (2015, eLife, Salk Institute),海马体测量,外推全脑为简化假设;感官带宽 ~1 Gbps — Zheng & Meister (Caltech/Neuron, 2024);LLM 权重不严格等于"压缩后存储量"。
从约束到 Taste 的四步
四条独立的研究线索,拼在一起构成一条从物理层约束到方向性判断力的逻辑链。每一步有其实证基础,但将它们串联为因果链是本文的原创综合,不是任何单一论文的结论。
少即是多:忽略信息可以提升判断
一个反直觉的发现:使用更少信息,预测准确率反而更高。只看一个线索的 take-the-best 启发式,在 20 个跨领域数据集上平均预测准确率高于多元回归(Czerlinski et al. 1999),后续研究中也优于神经网络(Brighton 2006)。
机制是 bias-variance tradeoff:全信息模型 bias 低但 variance 高,容易过拟合;启发式 bias 稍高但 variance 大幅降低,泛化更好。
这为整条论证链提供了终点:如果在高不确定性环境中"果断忽略大部分信息"本身就可能是有效策略,那产生这种"忽略能力"的机制就值得追问。
容量约束迫使取舍,取舍产生结构
Turner & Arumugam 的形式化结论:容量约束会在任务之间制造结构性 trade-off,迫使 agent 在"哪些区分值得保留"上做取舍(state chunking)。论文把这视为智能范围的上界、是一种代价,而非优势:被约束的 agent 只能对环境做粗粒度化,并因此损失特定任务上的性能。
Lieder & Griffiths 从另一个角度论证同一件事:有限计算资源下的最优策略不是精确求解,而是"足够好"的近似,这些近似恰好对应认知心理学中的启发式。
人脑工作记忆约 3-5 个 chunks(Cowan 2001),被迫只保留最本质的模式。LLM 的高容量让它不需要做这种取舍。
瓶颈迫使网络学会关系,而非表面
一系列工作(Webb et al. 2020、Kerg et al. 2022、Altabaa et al. 2023,由上述 2024 年综述系统梳理)发现:在神经网络中人为加入"关系瓶颈"(阻断对个体属性的直接接入,只允许关系信息通过),网络会自动提取关系性结构而非表面特征,泛化显著变好。
要注意一个区分:这里的"瓶颈"约束的是信息的种类(只让关系通过),和本文前几步讲的容量/总量瓶颈不是同一回事,一个限制"信息是什么类型",一个限制"信息有多少"。两者机制不同,但指向同一个方向:被限制的系统被迫学结构,而不是死记细节。
人脑同时受这两类约束:层级式的容量瓶颈(感觉→注意力→工作记忆→长期记忆,每一层都强制压缩),叠加对关系结构的偏好。标准 Transformer 两者都更弱,自注意力让每个 token 都能访问其余所有 token,推理时几乎不在信息流上设任何限制。(末句为本文延伸推论,非论文结论)
预测驱动的压缩天然趋向简洁因果模型
FEP 主张:大脑的根本功能是最小化预测误差,即建立一个用最少信息量预测最多现象的内部模型。预测成功的部分被"解释掉",只有意外才向上传递。
这天然趋向 Occam's razor 的生物学实现,即用最少假设解释最多现象。人脑不是试图记住世界的所有细节,而是不断压缩出一个尽可能简洁但足够用的世界模型。
LLM 也做"预测下一个 token",但其压缩的优化目标(保真度/困惑度)和大脑的(行为适应度)在机制上有根本差异。LLM 是否也形成了某种内部因果模型,学界尚有争议(Li et al. 2023)。
LLM 的路径为什么走不通
把这条链子反过来看 LLM,就明白问题不在"还不够好"。算力充裕,模型不必做极致压缩;不被迫抽象,就倾向于保留尽可能多的统计关联;于是在不确定的开放环境里,它更容易过拟合到表面模式,而难以果断筛掉无关方向。结果就是 Taste 的缺失。也就是说,LLM 的架构优势(高容量、宽信息流)恰恰是产生 Taste 的结构性障碍。
Gigerenzer 的一个区分能说清这里的关键:
Accuracy-effort tradeoff:"更多信息太贵,所以用启发式。"这是成本问题,可以靠更便宜的算力解决。
Less-is-more:"更多信息本身就会拉低准确性。"这无法靠更多算力解决。
LLM 面临的是后者。这不是算力问题。
但"约束产生 Taste"说满了就不准确
有两个系统看起来是反例,得先讲清楚,这条论点才站得住。
AlphaGo / AlphaProof: AlphaGo 通过 self-play 发展出超人"棋感";AlphaProof 在 2024 年 IMO 上达到银牌水平(28/42 分,差一分到金牌)。这算不算无约束系统也能产生 Taste 的反例?
关键变量可能不是"约束"本身,而是反馈密度 × 环境封闭度。围棋和竞赛数学虽难,却有两个特征:成败信号明确,且能大规模生成训练样本。这让 self-play 成为一条等效的"压缩路径":海量试错炼出的 value function,在功能上类似人类的直觉判断。
Schwartz 说的 Taste 出现在另一端:反馈延迟数月甚至数年、没有清晰对错信号、无法大规模生成样本。在这类开放环境里,人类的约束式压缩(几十年缓慢积累的直觉)仍是目前唯一已知的有效路径。
修正后的边界:本文论点不是"约束是 Taste 的唯一来源",而是"在反馈稀疏的开放环境中,约束式压缩是目前已知的唯一有效路径"。AI 在反馈密集的封闭与半封闭领域已经找到替代路径(self-play),在真正开放的领域尚未找到。
什么样的证据会推翻它
把边界收窄到这一步,论点反而更结实,但它仍是一个可能被推翻的判断。先看一个正在逼近边界的信号。
复旦 / OpenMOSS 的 RLCF 工作(arXiv 2603.14473, 2026-03)用引用量差异构造约 70 万正负样本对,训练出 Scientific Judge,在判断论文影响力上超过 GPT-5.2 与 Gemini-3 Pro。值得注意的是,同一工作还把这个 Judge 用作奖励模型,训练了 Scientific Thinker 去主动提出更高潜在影响力的研究想法,而不只是事后品鉴,这一步恰好踩在本文下面列出的第一个可证伪条件上。
不过它离推翻本文论点还有距离:Thinker 的"高影响力"仍由那个用引用量训练出来的 Judge 来打分,是一个封闭的代理闭环,不是开放世界里延迟数月、稀疏而真实的反馈;它处理的也是摘要级别的偏好对比,而非 Schwartz 描述的长周期方向判断。它是对论点的真实压力,但还不是反例。
本文论点的可证伪条件:出现以下之一,本论点被严重削弱:
1. 一个未经特殊约束设计的 LLM,在没有人类方向性指导的情况下,在反馈稀疏的开放领域(如理论物理、原创产品设计)持续做出正确的方向性判断,且这种表现是系统性的、而非统计巧合;
2. 模型蒸馏或信息瓶颈训练被证明能系统性地产生类 Taste 的方向性判断能力(这反而支持"约束有效",但说明人类生物约束不是唯一路径)。
第二条已被 RLCF 部分触及,第一条尚未发生。研究者应带着这些条件持续检验,而不是把本文论点当成不可修正的定论。
在被证伪之前,这个判断对每一个用 AI 工作的人都有直接含义。理论部分到此为止,接下来是它落到日常工作里的具体形态。
两个互补的认知系统
如果资源约束确实是 Taste 的来源,那人和 AI 的关系就不该按"谁取代谁"来想:他们的认知结构本来就被压在了不同的位置上。
流行叙事要么说"AI 是工具,人是使用者"(把 AI 当锤子),要么说"AI 取代人"(把两者放在同一维度竞争)。这两种都不够准确。更贴切的理解是:在当前的能力分布下,人和 AI 各自在不同类型的认知任务上有比较优势。
AI 的比较优势:穷举搜索、逻辑推导、不知疲倦、覆盖面广,类似 Kahneman 所说的"慢思考"(但比人快得多)。
人的比较优势:方向性直觉、异常检测、约束条件下的快速判断,几十年试错经验被压缩后的产物。
这不是 Kahneman System 1/2 理论的直接套用(那是描述同一主体内的两种加工模式),而是一个基于当前能力边界的分工观察:Schwartz 两周完成论文,靠的是一个有 taste 的教授负责方向判断,加上一个不知疲倦的 AI 研究生负责执行,超越了两者任何一方独立工作的效率。
人的核心价值:做 AI 的 System 1
方向判断:这条路值不值得走?(Taste)
异常检测:这个结果"感觉不对"。Schwartz 发现 Claude 伪造数据就是靠这种直觉。
质量标准:什么算"足够好"?什么是"看起来好但实际有问题"?
问题定义:最难的不是解决问题,是知道该解决什么问题。
"Expert wrongness-detection is the key human capability — the ability to feel when something is wrong."
人机认知栈
越往上,不确定性越高,越需要 taste;越往下,确定性越高,AI 可以全权负责。
Schwartz 的实践完美符合这个模型:他选题、定方向、判断对错;Claude 做计算、写代码、画图。
从一个案例到 40 万次会话
Schwartz 的例子说服力很强,但终究是一个人的经历。这套分工如果真的普遍,就该在大样本里显出同样的形状。2026 年 6 月,Anthropic 经济研究团队的一项研究正好把尺度放到了这一步:隐私保护下分析约 23.5 万人、约 40 万次 Claude Code 交互式会话(2025 年 10 月至 2026 年 4 月)。结果,真实世界里的分工,几乎就是上面那张认知栈图。
最值得注意的是研究怎么定义"专长":它跟职业头衔无关,是任务级的,判断信号有三个,其中两个是:用户要求 AI 验证什么,以及到底是用户在纠正 AI、还是 AI 在纠正用户。这恰好就是本文说的方向判断与异常检测。Schwartz 靠它发现 Claude 伪造数据;在 40 万次会话里,它换来的是两倍的成功率。
判断力能换来两倍的成功率,这是好的一面。但同一套分工里藏着一个前提:它成立的条件,是人始终握着最上面那层的方向判断。而越是顺手地把工作交给 AI,这层能力反而越会不知不觉地退化。
Taste 的悖论:用得越多,越容易失去
三个已被研究观察到的风险:
"Having my skills atrophy is primarily gonna be problematic with respect to my ability to safely use AI for the tasks that I care about."
保持 Taste 的三个原则
既然用得越多越容易丢,维持 Taste 不能靠自觉,要靠几条刻意设定的规则。
原则 1:做骑手,不做乘客
Spivack 的骑手-马匹隐喻:骑手不只是给方向,而是持续感知马的状态:犹豫、偏移、过度自信。不要"发个 prompt 等结果",而要全程参与、实时纠偏。把任务拆成阶段,每个阶段都审视方向、挑战假设、修正路线。
原则 2:保持"做过"的状态
压缩比的启示:Taste 来自亲身试错的压缩,不是阅读产生的。定期做一些"不用 AI"的工作,刻意维持自己的 System 1 判断力。Schwartz 做了 25 年理论物理,所以才能发现 Claude 的错误。
"Every once in a while, even if I know that Claude can nail a problem, I will not ask it to. It helps me keep myself sharp."
原则 3:把精力花在 AI 最弱的环节
不应在 AI 擅长的执行层消耗注意力,而应把认知资源集中在问题定义、方向选择、异常识别、质量判断。越高层的判断越不可委托:战略 > 设计 > 实现 > 细节。
落到不同角色
"Get to know these models. Learn what they are good at and what they fail at."
约束塑造智慧
资源约束是产生 Taste 的一条有效路径,可能是目前在开放环境中唯一已被验证的路径。人脑之所以走上这条路,不是因为它选择了更好的算法,而是因为它别无选择。
人脑被迫在信息洪流中只保留最本质的模式,产生了快速判断的启发式。LLM 倾向于保留远多于人脑的统计关联,目前尚未找到在反馈稀疏的开放环境中发展等效判断力的路径。
这不是一个永恒的结论,而是一个基于当前证据的判断,附带了明确的可证伪条件。但在被证伪之前,它对每一个使用 AI 的人都有实际意义:
AI 时代,人的价值不在于做得更快更多,而在于判断什么值得做。Taste 是数十年试错经验被极致压缩后的产物,它让人能在一秒内否决 AI 需要一小时才能证伪的方向。保持这种判断力,是个体能为人机协作体贡献的最稀缺资源。
常见反驳
三个看似直接反驳本文论点的事实,以及本文的回应。
1. Reasoning models(o1/o3/Extended Thinking)引入了"深度思考",不就是人工的信息瓶颈吗?
CoT 是推理时的计算约束,不是表征层的容量约束。模型仍然保有完整的参数空间和全部知识,CoT 只是让它"想得更久",而非"被迫丢弃信息"。类比:一个图书馆管理员花更多时间挑书(CoT),和一个只有一个书架、被迫精选藏书的读者(人脑),"品味"的来源不同。前者的品味来自搜索策略的质量,后者来自存储约束迫使的取舍。Reasoning models 提升的是搜索效率,但 Schwartz 观察到的 Taste 是在不需要搜索的情况下就知道方向,这是表征层的能力,不是搜索层的。
2. Scaling Laws 表明更大模型一致地泛化更好,如果"约束产生智慧",为什么更多参数反而更强?
两者在不同层面运作。更大模型在已知任务上泛化更好(文本预测、推理、知识问答),这无争议。但 Schwartz 观察到的 Taste 缺失恰恰出现在模型已经极其强大(Opus 4.5)的时候,说明 scaling 能解决的问题和 Taste 问题不在同一维度。Taste 不是"更强的泛化",而是"在不确定性中判断哪个方向值得走",一种 meta-level 的方向性直觉,而非 object-level 的任务表现。
3. 模型蒸馏不就是"强制压缩"吗?
蒸馏确实是率失真意义上的压缩,但有一个关键差异:蒸馏的优化目标是"尽可能保留教师模型的输出分布",即保真度。人脑的压缩没有"保真"目标,只有生存适应度的间接反馈。正因为没有保真约束,人脑的压缩才产生了高度主观的、面向特定生态位的启发式。蒸馏产生的是"更小的通才",人脑产生的是"有偏见的专家",后者才是 Taste。
Sources
核心来源
- Schwartz, M.D. "Vibe Physics: The AI Grad Student." Anthropic Research, 2026-03-23
- Tong, J. et al. "AI Can Learn Scientific Taste." arXiv:2603.14473, 2026-03 (Fudan / OpenMOSS)。训练 Scientific Judge(品鉴)与 Scientific Thinker(主动提出高影响力想法)两个模型。
- Pan, L. et al. "Large Language Models Think Too Fast To Explore Effectively." arXiv:2501.18009, 2025 (Georgia Tech)
- Spivack, N. "The Horse Has No Rider: Why Autonomous AI Science Gets It Wrong." 2026-03-23
- Ding, A.W. & Li, S. "Generative AI lacks the human creativity to achieve scientific discovery from scratch." Nature Scientific Reports, 2025-03
认知科学理论
- Gigerenzer, G. & Brighton, H. "Homo Heuristicus: Why Biased Minds Make Better Inferences." Topics in Cognitive Science, 2009 (Max Planck Institute)
- Bröder, A. 对 "Homo Heuristicus" 的评论与再分析,Topics in Cognitive Science, 2010(质疑启发式普遍性的代表性反方)
- Lieder, F. & Griffiths, T.L. "Resource-rational analysis: Understanding human cognition as the optimal use of limited computational resources." Behavioral and Brain Sciences, 43, e1, 2020
- Turner, C.R. & Arumugam, D. "Trade-Offs Between Tasks Induced by Capacity Constraints Bound the Scope of Intelligence." Princeton, 2025
- Webb, T.W., Frankland, S.M. & Cohen, J.D. "The Relational Bottleneck as an Inductive Bias for Efficient Abstraction." Trends in Cognitive Sciences, 28(9):829–843, 2024(综述;一手结果见 Webb et al. 2020、Kerg et al. 2022、Altabaa et al. 2023)
- Friston, K. "The free-energy principle: a unified brain theory?" Nature Reviews Neuroscience, 2010 (UCL)
- Williams, D. 等对自由能原理"不可证伪/循环"问题的批评(2018;另见 Colombo & Wright 2021)
- Bartol, T.M. et al. "Nanoconnectomic upper bound on the variability of synaptic plasticity." eLife, 2015 (Salk Institute)
- Cowan, N. "The magical number 4 in short-term memory." Behavioral and Brain Sciences, 24, 87-114, 2001
- Zheng, J. & Meister, M. "The Unbearable Slowness of Being." Neuron, 2024 (Caltech)
Anthropic 研究
- Huang, S. et al. "How AI Is Transforming Work at Anthropic." Anthropic Research, 2025-12-02
- Hitzig, Z., Massenkoff, M., Lyubich, E., Heller, R. & McCrory, P. "Agentic Coding and Persistent Returns to Expertise." Anthropic Economic Research, 2026-06-16(约 23.5 万人 / 40 万次 Claude Code 会话)
- Shen, J.H. & Tamkin, A. "How AI Assistance Impacts the Formation of Coding Skills." arXiv:2601.20245, 2026
- Swanson, K. et al. "Anthropic Education Report: The AI Fluency Index." Anthropic Research, 2026-02-23
其他
- Delétang, G. et al. "Language Modeling Is Compression." DeepMind, 2023 (ICLR 2024)
- Shannon, C.E. "Prediction and Entropy of Printed English." Bell System Technical Journal, 1951