生产复盘 · 成本优化 · 2026-06

为省钱给 AI 客服降级,
省下的钱三个月后赔进去四五倍

一个团队把 AI 客服的账单砍掉了一半多,八周干净的工程活。三个月后客户满意度在掉、流失在涨,赔进去的钱是省下来的四到五倍。每一个单独的决策都对,合起来却造出一个监控看不见的质量黑洞。

省下来(看得见)
≈ $100k / 月
推理账单,记在搭路由那个团队的账上
赔进去(看不见)
$400–500k / 月
客户流失 + 人工客服,由三个不归这个团队管的部门买单
30 秒看懂这件事
1
共识打法:AI 推理很贵,于是在主模型前面放一个小分类器,给每条用户问题打个标:「简单」的发给便宜模型,「复杂」的留给贵的强模型。账单立刻降一半。
2
看不见的裂缝:有些问题表面看着简单,底下却藏着复杂意图。便宜模型照着表面答,给出一个完整、像样、却答错了真实问题的回答,而它答得很自信,没人察觉。
3
账记在了两个地方:省下的推理费记在工程团队账上,看板全绿;答错赶走的客户、多打进来的人工客服电话,由另外几个部门买单。每个团队都在优化自己那本账,合起来是负的。
01 · 起点

一个全做对了、却还是崩了的优化

2026 年关于 AI 成本,已经收敛出一套共识打法:简单查询路由给便宜模型,复杂查询留给强模型,账单降下来、质量保得住。这笔账是真的。陷阱也是真的。

作者复盘的第一个团队,上个季度把 AI 推理账单砍掉了一半多。八周干净的工程活,是整个工程团队追了一年的胜利。CFO 发了感谢信,团队在全员会上做了汇报,然后转去做下一个季度的优先级。

三个月后,客户满意度在掉、流失在涨,而省下来的钱和这部分质量损失是结构性绑在一起的。用作者的话说,这不算赢,只是把成本挪到了一个自己没在度量的地方。

这篇复盘有价值的地方,恰恰在于这个团队几乎什么都做对了。架构合理、监控到位、灰度规范,照着市面上每一篇成本优化指南做的,每一个单独的决策都站得住。问题出在:这些都对的决策合在一起,造出了一个现有监控架构看不见的质量黑洞。

先说清楚「分类器路由」是什么

在真正回答用户的主模型前面,加一个很小、很快的分类器模型。它不回答问题,只给每条进来的查询打个标:simple 还是 complex。simple 的转给便宜模型,complex 的继续走强模型。下面这张图就是这套结构。

FIG. 01 分类器预路由:先打标,再决定谁来答 分类器 <30ms · 65% / 35% 分流
用户查询 400 万 MAU 分类器 微调 encoder 20 万条训练 · <30ms simple · 65% complex · 35% 便宜模型 单价 ≈ 强模型的 1/4 强模型 原本所有查询都走它 账单 → 原来的 40%
便宜模型选的是同一 provider 家族里更便宜的那个,单价约为强模型四分之一。分类器只看查询的表面形态就要在 30 毫秒内决定走哪条路,这一点正是后面所有问题的根。
02 · 他们搭了什么

每一步都按教科书做,每一步都过了

这是一个 SaaS 产品的客服 AI agent,月活约 400 万。原本跑在单一强模型上,月账单进了六位数还在涨。下面几个数字,是他们上线前做的功课。

20 万
分类器训练数据
带质量标签的历史客服查询,微调一个 encoder
94%
便宜模型等质率
5000 条 holdout 上 side-by-side,6% 差距判为可接受
40%
第八周的账单
六周灰度 5%→100%,每步质量、延迟、成本都在绿区

分类标准来自生产观察:simple 是反复见到的那类(账户查询、账单状态、密码重置、订单跟踪、营业时间),complex 是历来需要多步推理的那类(退款纠纷、套餐变更、集成排障、账单周期异常)。代表性一周里,大约 65% 判 simple、35% 判 complex。灰度也规范:5% → 10% → 25% → 50% → 全量,分六周走完,每一步指标都绿。

问题不在他们搭的东西,在他们测量的方式。路由上线前,整套评测架构建立在「我们跑的是单一模型」这个假设上,质量信号来自三处:每天约 200 条人工复查、每周约 12000 条的离线回归套件、产品内一个点赞点踩控件。路由上线后,这三个信号一个都没出错,但它们一起漏掉了同一件事。

三个测量盲区

人工复查没分档,65% 落在便宜模型上,简单查询的高分把聚合数拉高,难的那端被稀释看不见。离线回归套件是静态的,部署前六个月建的,反映理想分布,不是便宜模型现在真要扛的生产分布。反馈控件太稀,每 1000 次交互约 3 次点踩,信噪比低到除了大幅回归什么都测不出。三个盲区都不是路由引入的,是单模型时代就潜伏的;只要系统只有一个质量分布,它们不会误读。路由引入了第二个分布,旧架构没法把两者分开看。

03 · 一个具体例子

「我这笔扣款哪来的」,崩点就在这句话里

诊断花了两周,作者从日志重建出一个「按档分层的质量视图」。便宜模型在派给它的查询里约 80% 表现良好,和当初的等质结论吻合。问题全在另外 20%。最清楚的例子是账单查询。

分类器被训成把「我这笔扣款哪来的」「我被扣了两次」识别为 simple,假设下游是「账户查询 + 发票检索」这个可靠组合。在 holdout 测试里这是真的。但在生产里,相当一部分这类查询底下藏着更复杂的意图。

FIG. 02 同一句话,表面一个意思,底下三个 分类器只看得到最上面那行
「我这笔扣款哪来的?」 分类器看到的表面形态 → 判 simple 底下真正在问的,可能是这几种 一笔真实的欺诈扣款 需要谨慎多步调查 是一场调查的开场 两系统之间延迟对账 钱没丢,是时间差 要顺着对话查下去 没通知到的账期变更 账单周期改了 用户没收到通知 强模型 有余量顺着对话跟进复杂度, 默默把嵌套意图正确处理掉。 便宜模型 把每一个都当表面意图, 回答了一个用户没在问的问题。
强模型一直在默默正确处理这些嵌套意图,所以单模型时代从没暴露过这个风险。换成便宜模型后,欺诈那个场景里的客户,拿到的是一个针对他没在问的问题的、完整而自信的错答案。

更隐蔽的是后果怎么扩散。拿到错答案的用户不一定点踩,很多人直接放弃 agent、转去打人工客服电话。于是点踩信号低估了失败,失败的成本被转移到人工客服那一头,由另一个预算买单。agent 的自助解决率看着很稳,实际人工处理量在往上爬,但这两件事属于不同的成本中心,没有任何一个看板能同时看到。

the classifier is well-calibrated exactly where it does not need to be, and poorly calibrated exactly where it does. 分类器恰好在它不需要准的地方校准得很好,在它最需要准的地方校准得最差。
— Pratik K Rupareliya, Towards Data Science
04 · 为什么是结构性的

问题不在哪家做砸了,在长尾的几何形状

问题不在他们选的模型、用的 provider 或训的分类器,而在问题空间本身的形状。这一段最值得放慢看。

任何生产 AI 部署里,客户查询的难度服从幂律分布:大部分挤在简单中心,一小部分拖向又难、又模糊、又依赖上下文的长尾。前沿模型对简单中心是过度配置的:回答「你们几点开门」用不上那么强的能力。正是这种过度配置,让成本优化的机会真实存在。

麻烦在于,分类器没法在决策那一刻把简单中心和长尾分开。它看到的是查询的表面形态,而长尾就藏在「看起来简单」的表面底下。下面这张图把这件事画出来了。

FIG. 03 长尾压缩问题:分类器准在错的地方 难度幂律分布 × 分类器可靠度
查询难度 →(左:简单高频中心 右:又难又模糊的长尾) 查询数量 简单中心 便宜模型 ≈ 等质 长尾 「最要紧的那批查询」 选谁差别最大,却藏在简单表面下 分类器可靠度 在最需要准的地方,最不可靠
表面形态对「最要紧的那批查询」是个很差的意图预测器:它最可靠的是简单查询(也正是模型选谁差别最小的那批),最不可靠的是难查询(也正是差别最大的那批)。这就是作者说的长尾压缩问题

除了校准错位,还有两个机制叠在上面:

自信地失败(fail confidently)。前沿模型的失败往往是可恢复的:它会 hedge、会反问、会暴露自己的不确定,从而提示人介入。小模型常常给出一个完整、像模像样、表面自洽、却答错了真实意图的回答。这种错比一个犹豫的回答更难被识别成错,于是潜伏得更久。

漂移。生产查询分布会演化:新产品上线、新客户群进来、新失效模式出现。在六个月历史流量上训的分类器,会随分布偏离训练集而误路由越来越大比例的查询。省钱保持稳定,因为路由仍以同样比例发给便宜模型;质量成本悄悄涨,因为分类器越来越判错「哪些查询真的简单」。

三个机制叠加,几乎没给系统留下自我纠正的余地。便宜模型那档把简单的大头处理得很好,在隐藏的长尾上不透明地失败,再随分布漂移进一步退化。这正是它是 Pareto 陷阱、而不只是一次有噪声的优化的原因:几何是结构性的

05 · 成本账本

省下的钱看得见,赔掉的钱在别人账上

把账一起算,质量损失的成本影响保守估计是省下钱的四到五倍。但关键不只是倍数,是这两笔账记在了不同的部门。

推理层 · 省下
≈ $100k / 月
由搭路由的工程团队记账。看板全绿,CFO 发了感谢信。
下游 · 赔进
$400–500k / 月
客户留存 + 人工客服成本,由客户体验、客服、留存三个不归这个团队管的部门承担。
每个团队都在优化自己的预算,合起来却是负的,这就是 Pareto 陷阱的结构。

满意度的累计影响最终在两处显形:灰度期间和 agent 交互过的客户,90 天回访满意度明显低于灰度前的基线人群;6 个月留存对照基线下行,最暴露于失效路由的客户分段掉得最狠。从漂移开始到团队找上作者,中间隔了整整一个季度。下面是这条时间线。

第 3 周(全量后)
便宜模型那档的质量漂移开始。看板上什么都没显示。
第 6 周
回归套件已能测到小回归,但因为没按档拆分,被误解成 provider 的模型版本漂移。
第 10 周
满意度的累计影响在产品指标上显现。
第 13 周
流失明显高于基线。团队就是在这时找到作者。
第 16 周
把路由回退到保守得多的设置。
第 20 / 28 周
满意度趋势反转;留存回到基线。前后净成本约等于两个季度的净负产品价值。
同一个模式 · 另外两个案例

不是孤例

复盘完第一个案例,作者去其他有可见度的部署里找同一个模式,很快浮出两个。三个案例的模式一致:省钱真实且可测,质量损失真实但现有架构测不出来。

案例 2 · 中型 SaaS
embedding 相似度分类器
客户成功助手,月推理低五位数。架构模式一样,省了约一半成本,内部看板全绿。按档拆分后,便宜模型在被判 simple 的长尾查询上满意度明显更低。客户信任影响估为省钱的 2.5–3 倍,审计后一个月把路由回退到小得多的比例。
案例 3 · 金融科技(受监管)
保守路由,也踩了合规红线
月推理高六位数,只把「信息类」查询发给便宜模型,路由比例约 20%。有些读着像「信息类」的查询其实带监管分量:一个「我的利率是多少」的后续问题需要足够精度。合规团队靠一次人工审计在酿成监管问题前抓住,随后把路由整个回退。
跨行业不对称

客服里答错可以恢复,受监管行业里答错可能就是一次违规。任何长尾成本高或受约束的场景,Pareto 陷阱都会被放大。

06 · 怎么提前发现

三层观测,能把陷阱从三个月提前到几天

能更早抓住这类问题的诊断方法并不复杂,但它要求在路由层上线之前就改测量架构。作者给了三处具体补充,每一层都揭示其余两层看不到的失败。

1
按档分层的质量监控
每个质量信号都按路由档拆开,档位标签端到端在埋点里传播:人工复查分层、离线回归套件拆成按档子集、产品内反馈和路由决策日志做 join。聚合质量数字本身,结构上就无法暴露某一档的漂移。
2
长尾满意度采样
因为长尾在聚合里不可见,测量架构必须对长尾过采样:更重地从分类器最不确定、或落在训练分布质心之外的查询里采样。目标是给「模型选谁真的有差别」的那批查询加权,而不是像朴素采样那样偏向简单查询。
3
路由置信度漂移监控
分类器本身就是个大多数团队不监控的质量信号源。把生产流量上的置信度分布对照训练时持续跟踪,一旦漂移,分类器就在校准范围外工作。关键在于:这个漂移信号比质量信号早几周出现,正好是纠偏需要的提前量。

两点提醒:一是事后补这些测量比上线时一起建难得多,上线前建大约要三个工程师周,出了质量问题再补往往要重建当初没采集的数据;二是测量架构比路由决策本身更重要:有好的分档观测的团队可以安全地试激进路由,因为他们会抓到漂移;没有的团队在规模化下任何路由层都不安全。

07 · 正确替代

不确定性级联:让模型自己说「我不会」

如果「分类器预路由」是 Pareto 陷阱,作者给出的替代方案明显更好,但有它自己的代价。核心差别是:谁来做「这条查询要不要升级」的决策。

FIG. 04 预路由 vs 不确定性级联 决策权:分类器 → 模型自己
预路由(陷阱) 查询进来 分类器先打标 还没有任何模型看过 便宜模型 强模型 判错就一路错到底, 分类器看不见长尾, 便宜模型自信答错。 不确定性级联(替代) 查询进来 先走便宜模型 产出答案 + 自评置信度 置信高 置信低 直接返回 升级强模型 由它的回答返回 本会「自信答错」的难题, 现在以低置信度浮出来、 触发升级,交给强模型。
不在任何模型碰到查询之前就预先分类,而是每条查询都先从便宜模型开始,由它产出一个带校准置信度的答案。置信度高直接返回,低于阈值就升级到强模型。决策权从分类器手里,交回给了模型自己。

这个模式把失败模式反转了。那些便宜模型本会「自信答错」的难题,现在以低置信度的形式浮出来、触发升级。在作者对那个客服案例的推演里,建模出的省钱幅度和预路由方案大致同一区间,而长尾质量明显更好。两个增强还能叠加复利:Shadow scoring,对一小比例流量并行跑强模型探测漂移;Quality-weighted routing,把观测到的满意度信号回灌进阈值调参,让级联随分布演化自适应。

级联的代价是实打实的:升级查询的延迟约等于便宜模型加强模型之和,明显比预路由差;成本更难提前预估,因为取决于生产置信度分布;实现复杂度也更高,因为校准便宜模型的置信度本身不平凡。这些代价值得权衡,但它们换来的是级联守得住、预路由守不住的那条质量底线。

Cascades trusts the model itself to know what it does not know. 预路由信任的是一个看不见关键信息的分类器;级联信任的是模型自己知道它不知道什么。
— Pratik K Rupareliya, Towards Data Science
结语

这个权衡,该交给系统的哪一层

那个第一个团队最终落到一个稳定架构:不确定性级联加按档分层观测。月推理成本稳定在比优化前基线低约 35%,比预路由方案纸面上省得少,但客户满意度回到了实验前水平,两层一起算,部署的净产品价值明显为正。

团队从中得到的教训不是「成本优化是错的」,而是:成本优化是一个关于该把这个权衡交给系统哪一层的选择。预路由信任的是一个看不见关键信息的分类器;级联信任的是模型自己知道它不知道什么。便宜的那个优化,是悄悄拖垮产品的那个;架构上诚实的那个,是能在长尾里活下来的那个。在生产 AI 里,两者的差别通常是一个季度的客户满意度。

来源说明

单一来源,忠实还原

第三方We Built a Routing Layer to Cut Our AI Costs. It Broke the Product.

Towards Data Science · 2026-06-27 · 作者 Pratik K Rupareliya(Intuz 联合创始人兼策略负责人,18 年+ 企业 AI / IoT / 云落地经验,700+ 项目)。

这是一篇带顾问视角的第三方复盘,发表在社区投稿平台,作者所在公司经营企业 AI 落地服务。文中三个部署均为匿名案例,关键数字(省约 $100k/月、赔约 $400–500k/月、94% 等质、质量损失 4–5 倍、最终成本低于基线约 35%)只有这一个一手来源,外部无法独立复核,本文按「某生产部署复盘」对待,不作审计级断言。真正扛得住的是它的机制论证:长尾压缩、自信失败、漂移、三层观测、不确定性级联,本文叙事也以机制为主。