将 Claude 代码的输出token减少了 75%。为什么没人告诉我?

张开发
2026/4/18 20:23:40 15 分钟阅读

分享文章

将 Claude 代码的输出token减少了 75%。为什么没人告诉我?
Claude Code 正在拿“Certainly”这种词收你的钱。不是修复方案。 不是代码。 而是“当然我很乐意帮你处理这个问题”“你现在遇到的问题大概率是由……”这一类看上去很礼貌、实际上很烧 token 的废话。我们真的在为这些字付费。Allen Iverson 当年那段著名采访被全网反复调侃。不是因为比赛不是因为胜负而是因为他一直在说——practice。不是比赛。 是训练。而现在我们花钱买的某种程度上就是另一种“practice words”。我做了个测试我拿同一个 Unity UI 元素 bug让 Claude Code 连续解释了两次。默认状态下的 Claude Code1252 tokens。 开了这个方法以后410 tokens。修的是同一个 bug。 给的也是同一种解决方向。差别不在能力。 差别在于其中一个版本额外花了 800 多个 token用来铺垫、寒暄、解释语气以及那些根本不影响结果的“人话包装”。说白了答案没变。变的只是废话变少了。这个办法简单得离谱GitHub 上有个免费的插件已经拿下了1.3 万 stars。 它干的事情听起来像玩笑但效果一点都不像玩笑让 Claude 说话像个穴居人。装上以后它会立刻把 Claude 的输出风格压缩到极简模式。 少寒暄少铺垫少没必要的完整句直接奔结果去。安装方式也夸张地简单claude plugin marketplace add JuliusBrussee/caveman claude plugin install cavemancaveman装完以后执行/caveman就开了。没别的步骤。 没有复杂配置。 没有折腾空间。开了以后Claude 到底会变成什么样在 caveman 模式没开之前Claude 往往会这样说“Sure! I’d be happy to help you with that. The issue you’re experiencing is most likely caused by your authentication middleware not properly validating the token expiry. Let me take a look and suggest a fix.”很礼貌。 很完整。 也很贵。而开了 caveman 之后它会更像这样“Bug in auth middleware. Token expiry check use not . Fix:”瞬间就干净了。没有“我很乐意帮你”。 没有“让我来看看”。 没有“你遇到的问题很可能是”。 直接告诉你问题在哪为什么错怎么改。更关键的是这不只是更省钱。它通常也更好读。因为很多时候我们真正想看的本来就不是陪伴式对话而是可执行信息。既然目的是修 bug、改代码、推进任务那越快碰到核心内容体验往往越好。最让我意外的不是省钱我一开始其实以为这件事肯定有代价。直觉上你会觉得输出更短了token 更少了那质量是不是也会一起下降听上去很合理。 但结果不一定是这样。也就是说冗长不一定更聪明。 很多时候它只是更贵。因为我们过去太容易默认 “说得越多说明理解越深。” 可对模型输出来说很多额外长度并不是洞察而只是包浆。不是能力。 是包装。你甚至还能自己选“穴居人程度”这个插件不是只有一种压缩方式它给了 3 个层级让你自己决定想让 Claude 缩到什么程度。1. Lite 模式/caveman lite这个模式会稍微收一点保留基本语法整体还是专业、正常、可读的。 如果你不喜欢太生硬的风格但又想砍掉那些没必要的前置话术这个模式会比较平衡。2. Full 模式/caveman full这是默认模式。 会进一步压掉冠词和一些连接内容输出更像短句碎片。 读起来更利落也更像“直接把结果扔给你”。3. Ultra 模式/caveman ultra这个就很极端了。 能缩就缩能省就省恨不得一个词能说完绝不用两个。差不多就是那种One word. Enough.如果你本来就不在乎语言完整性只在乎 token 和信息密度那这个模式会很上头。甚至还有一种更狠的模式文言文压缩。 看到这里我都差点开始后悔自己学生时代没认真学中文古文。一些很有意思的数据根据 Julius Brussee 自己给出的基准测试这类节省主要发生在 Claude“解释事情”的阶段。也就是说越是那种需要输出说明、分析、推理过程、建议文本的场景压缩带来的收益就越明显。 真正的大头不一定是“代码块”反而是那些围着代码打转的自然语言部分。想想也挺合理。代码本来就已经比较紧。 真正容易膨胀的是解释代码的那些句子。而 Claude 最爱膨胀的恰恰就是这一部分。还有个配套工具也挺狠除了caveman之外还有一个兄弟工具叫caveman-compress这个工具主要不是压 Claude 的回答而是压你的CLAUDE.md。很多人会忽略这件事但CLAUDE.md是非常贵的。 因为它几乎每个 session 都会被加载一次。 也就是说这个文件里每多一个 token你后面每次会话都可能反复为它付钱。这不是一次性成本。 而是持续税。caveman-compress的作用就是把这类说明文件改写成更紧凑、但仍然可读的格式。 同时它还会保留一份对人类友好的备份不至于压完以后自己都看不懂。一些用户反馈的节省幅度大约在45% 左右。这事其实非常关键。 因为很多人只盯着输出 token却忘了输入 token 同样贵而且往往更稳定、更持续。输出是这轮用了多少。 输入是你每轮都在交多少底租。我自己后来怎么改的我现在基本上每次开新 session都会先开/caveman。已经习惯了。 而且越来越喜欢这种简短、直接、不演的输出风格。以前我也会让 Claude 自己去压缩我的CLAUDE.md但现在我改用专门的插件来做。 很明显的一个体感变化是我撞 limit 的频率下降了不少。说实话我甚至觉得这东西就该默认开启。但问题也很现实。 输出越长使用量越高使用量越高平台赚得越多。 所以这种“替用户省钱”的行为不一定天然符合平台的商业激励。这也正是为什么很多真正有用的小工具最后反而是社区先做出来。最后精通 React 面试从零到中高级(针对面试回答)CSS终极指南Vue 设计模式实战指南20个前端开发者必备的响应式布局深入React:从基础到最佳实践完整攻略python 技巧精讲React Hook 深入浅出CSS技巧与案例详解vue2与vue3技巧合集全栈AI·探索涵盖动效、React Hooks、Vue 技巧、LLM 应用、Python 脚本等专栏案例驱动实战学习点击二维码了解更多详情。

更多文章