“数字打工人” OpenClaw 到底值多少钱?这儿有个砸了百万美元的测试

张开发
2026/4/6 16:22:04 15 分钟阅读

分享文章

“数字打工人” OpenClaw 到底值多少钱?这儿有个砸了百万美元的测试
每天免费领 1亿 Token白嫖DeepSeek、GLM、MiniMax、Kimi等大模型整理资料、搜集信息、写报告甚至跑自动化流程这些原本得磨破嘴皮子、点烂鼠标的活现在都能丢给 Agent 去干了。可以说AI 已经正式入职成了咱们工作流里的一员。既然把 AI 当成“数字员工”那有个问题就躲不开了这玩意儿现在到底能帮公司省多少钱又或者说它能创造多大的价值Humanlaya Data Lab 伙同北京通用人工智能研究院BIGAI等一众大佬搞了个 $OneMillion-Bench目的特单纯直接用钱来给 AI 称重。通过模拟那些值钱的真实任务看看 AI 离真正上岗还有多远。手把手教你一键部署OpenClaw连接微信、QQ、飞书、钉钉等1分钟全搞定评测的结果挺有意思目前最牛的那波 AI能搞定价值 48 万美元的高端局任务而为此付出的 Token 成本满打满算也就 100 块美金。换句话说在那些高难度的专业活儿里顶级模型已经能顶得上半个专家了。为什么非得搞这么个评测打从 2025 年“Agent 元年”开始AI 就不再只是个能陪聊的答题机了大家开始真把它当劳动力使。但问题也来了以前那些测试老是盯着分数看跟实际挣钱脱节而且大都是英文环境咱们用起来总觉得不对劲。过去评测大模型就像是给它发卷子看它能考多少分比如 MMLU 或者 SWE-Bench 之类的。分高就代表模型强。但在真实世界里榜单上的学霸未必好使。解出一道高中奥数题和审出一份价值几万块的法律合同在以前的评分里权重居然是一样的——这显然不符合常理。所以 $OneMillion-Bench 换了个思路直接谈钱。他们用“人类专家干这活儿得花多少钱”来给任务定价再看 AI 交出来的作业能不能达到专家水平。手把手教你一键部署OpenClaw连接微信、QQ、飞书、钉钉等1分钟全搞定任务价值是怎么算的呢就是“资深老手干这活儿的时长 × 专家的时薪”。这些数据都有据可查比如参考人社局或者美国劳工局的薪资标准。所有题目加起来总价值超过了 100 万美元。这就意味着如果你请一帮资深专家来搞定这些活儿你得掏上百万美金。现在让 AI 来试试就能直观看出它到底能抵多少真金白银。400 道难题背后是 2000 个小时的“专家心血”搞这个评测库本身就是件大工程。官方找了 100 多个来自大摩、顶级律所、协和医院、清华等牛逼机构的专家前前后后磨了 2000 多个小时才弄完。最后折腾出了这么一套东西400 道高难度题目中英文各一半覆盖了金融、法律、医疗、科学、工业五大板块细分领域多达 92 个每道题里都埋了二三十个考点总共有 7000 多个坑难度对标的是有 5 到 15 年经验的老员工在真实工作里遇到的硬骨头。说白了这考的可不是背书而是 AI 在行业深水区的决策水平。一不考“知不知道”考“怎么拍板”普通的题会问你“这是啥”但这个评测要的是“该咋办”。AI 必须给出能落地的方案得讲清楚先后顺序和背后的逻辑。比方说在医疗题里你不能光说“监测生命体征”这种废话你得列出具体的指标、频率以及万一出事了该怎么操作。法律题也一样不是让你背法条而是要给出一套能操作的判断路径。这才是真正的“数字员工”该有的样子。二专门设置“负分”治治 AI 瞎掰的毛病AI 有个坏习惯就是爱显摆话说得越长越专业就越觉得能蒙混过关。这种“刷分”行为在开放题里特别常见。为了治这个评测引入了逻辑扣分项。你要是满嘴胡话或者逻辑不通不但没分还得倒扣。计分规则是加分少扣分多这种设计更贴近现实活儿干得好是本分干砸了损失可就大了。手把手教你一键部署OpenClaw连接微信、QQ、飞书、钉钉等1分钟全搞定三中英双语还原真正的职场语境400 道题里中文和英文各占一半。这可不是简单的翻译而是根据本地的法律、流程和习惯量身定制的。比如中国的金融监管要求跟美国完全是两码事。这种区分能让国内用户更清楚哪个模型在处理本土业务时更有谱。四工业级的质检专家也得“过五关斩六将”这套题的通过率极低专家出的题只有不到四成能通过最终审核。每道题都要经过好几个人交叉审核、互相找茬就是为了确保题目质量。这不是随便搞个问卷这是正儿八经的工业化数据产出。成绩单公布48 万美元的产出只要 100 美元电费数据一出来确实挺惊人。最牛的模型通过率在 43.5% 左右。也就是说在那 100 万美元的活儿里它已经能挣到快 50 万了。而它消耗的 API 费用撑死也就 100 美元手把手教你一键部署OpenClaw连接微信、QQ、飞书、钉钉等1分钟全搞定虽然 AI 已经很能干了但评测报告也说了一些大实话。平均分只是面子通过率才是里子看平均分的话头部模型大都及格了看着挺美。但实际落地得看“通过率”单道题得拿到 70 分以上才算“过关”才算真的能把钱挣到手。如果按照这个硬标准即便是最强的 Claude Opus 4.6通过率也只有四成多。也就是说虽然它能干一些活儿但在超过一半的任务里它还是没法让你完全放心。AI 离真正“独当一面”还有段路要走。联网搜索好用但也容易被带偏接入搜索能帮 AI 获取最新信息在金融法律这种变动大的领域挺管用。但搜索也会带来杂音万一 AI 搜到了不靠谱的消息还信以为真那就麻烦了。接下来的竞争点不在于“能不能搜”而在于“懂不懂搜”——能不能分清谁才是权威来源能不能在乱七八糟的信息里保持清醒。手把手教你一键部署OpenClaw连接微信、QQ、飞书、钉钉等1分钟全搞定复杂推理还是个坎容易“看起来很对”模型很会写那种听起来头头是道、方向也对的回复但一旦涉及深度思考或者多步推导它就开始掉链子。这种任务得先搭架子、再推导、最后还得反向验证。AI 往往中间就“跳戏”了或者用一堆废话来代替真正的逻辑。在医疗或科学实验这种容错率极低的地方这种“看起来很对”但缺乏细节的毛病最危险。从技术秀场到真正的生产力如果光把 $OneMillion-Bench 当成个排行榜那就看浅了。它最大的贡献是把 AI 的本事和钱挂钩了。投资人王捷也表达过类似的观点咱们得从经济角度看 AI也就是“一个 Token 到底能换回多少钱”。在这个视角下模型强不强得看它干活的性价比、成功率和成本。手把手教你一键部署OpenClaw连接微信、QQ、飞书、钉钉等1分钟全搞定简单说以前我们算生产率是看人干了多久现在得看单位 Token 创造了多少 GDP。以前那些评测的局限性王捷觉得现在的很多评测有几个硬伤没分清任务的轻重缓急解道题跟审合同权重一样没考虑人愿不愿意用技术上对了人不敢用也白搭没把成本算进去没法反映对宏观经济到底贡献了多少。AI 生产能力函数C(M)为了解决这个他提出了一个新概念C(M) 函数。把成功率、任务价值和 Token 消耗全放在一起算。这个框架里有几个好玩的点经济图灵测试ETT以前的图灵测试看 AI 像不像人这个测试看 AI 产出的活儿能不能被公司接受。能用就是 1不能用就是 0。这就跟O n e M i l l i o n − B e n c h 里的“通过率”对上了——平均分高没用得能“交付”才行。 ∗ ∗ 任务到底值多少钱 ∗ ∗ 主要看三个方面人干这活儿得给多少工资、市场上这活儿卖多少钱或者这活儿避开了多大的风险。 OneMillion-Bench 里的“通过率”对上了——平均分高没用得能“交付”才行。 **任务到底值多少钱** 主要看三个方面人干这活儿得给多少工资、市场上这活儿卖多少钱或者这活儿避开了多大的风险。OneMillion−Bench里的“通过率”对上了——平均分高没用得能“交付”才行。∗∗任务到底值多少钱∗∗主要看三个方面人干这活儿得给多少工资、市场上这活儿卖多少钱或者这活儿避开了多大的风险。OneMillion-Bench 选了最直观的一种专家时薪。Token 消耗代表了效率分母上的 Token 数越多说明这模型越费钱或者效率越低。这让 AI 的能力成了一个综合的性价比指标。手把手教你一键部署OpenClaw连接微信、QQ、飞书、钉钉等1分钟全搞定看 AI 进步的三个维度在这个框架下AI 进步无非三条路省钱了同样的活儿用的 Token 少了变稳了干活的成功率更高了能干更多活了以前干不了的高端局现在也能上手了。对照 $OneMillion-Bench 的结果来看AI 在前两项表现惊人100 美元撬动 48 万美元价值但第三项——搞定那些烧脑的深度任务——依然是块硬骨头。这套框架有啥用对公司老板来说别光看排行榜得看哪个模型干你自家的活儿性价比最高。对搞政策的人来说能看清哪些行业最容易被 AI 改变哪些地方还没准备好。对搞经济的来说以后咱们就能算清楚AI 到底给 GDP 贡献了几个点而不是把它模糊地归结为“技术进步”。站在 2026 年的回望两年前大家都觉得 AI 还是个新鲜玩意。现在OpenClaw 让 Agent 满地走$OneMillion-Bench 则给出了具体的账单AI 已经能搞定专家级任务里近一半的活儿而且成本低得可以忽略不计。这就是 2026 年的现状。手把手教你一键部署OpenClaw连接微信、QQ、飞书、钉钉等1分钟全搞定当然大家心里也得有个数四成多的通过率说明 AI 还是个“实习生”还不能完全当“甩手掌柜”。但不管怎么说AI 已经不再是比拼分数的机器而是一种实实在在的生产要素。它的本事是能算出来的是能直接变成钱的。对咱们普通打工仔来说结论很简单Agent 不是万能神但在某些坑位上它已经足够强了。关键是你得搞明白你手里的活儿哪些是它能代劳的那 43%哪些还得靠你这块“老姜”。

更多文章