国产最强开源模型 GLM-5.1 来了!Ollama 一键部署,开启 8 小时自主 AI 工作

张开发
2026/4/9 12:25:17 15 分钟阅读

分享文章

国产最强开源模型 GLM-5.1 来了!Ollama 一键部署,开启 8 小时自主 AI 工作
引言GLM-5.1的开源确实是近期AI圈的一则重磅消息。为了让内容更充实我将上一版的介绍与GLM-5的详细对比融合在了一起这样能更清晰地看到它的进化。一图看懂GLM-5 vs. GLM-5.1为了让你直观感受GLM-5.1的进化幅度先看这张对比表格对比维度GLM-5GLM-5.1升级变化总参数规模744BMoE稀疏架构744BMoE稀疏架构架构一致激活参数约40B约40B推理效率相当上下文窗口200K200K保持一致最大输出Tokens128K128K保持一致训练数据量28.5T tokens28.5T tokens基础数据一致训练硬件华为昇腾910B芯片华为昇腾910B芯片约10万张全栈国产化开源协议MITMIT商业友好核心架构创新DSA稀疏注意力、Slime异步RLDSA深度优化、Slime框架升级工程优化推理效率DSA降低计算成本1.5-2倍推理成本再降20%Token效率提升15%成本效率双升长程任务能力分钟级交互长程易偏离目标8小时级持续工作自主闭环质变编程能力官方基准35.4分45.3分28%SWE-Bench Pro真实开发—58.4分超Opus 4.6开源新标杆向量数据库优化早早就见顶600轮迭代QPS从3.5k到21.5k6倍持续进化能力GPU内核优化早早就见顶1000轮迭代3.6倍加速vs torch.compile 1.49倍质的飞跃独立交付能力需人工干预1200步自主完成4.8MB Linux桌面系统工程化交付一句话总结GLM-5.1在架构参数基本不变的前提下通过后训练工程的深度优化实现了从“会写代码”到“能独立工作8小时”的能力质变。① 8小时级长程任务从“分钟级”到“工程级”的质变这是GLM-5.1最核心、最颠覆性的突破。以往的模型包括GLM-5有一个通病开局猛如虎跑着跑着就没招了到了瓶颈就开始原地踏步[reference:0]。GLM-5.1最大的突破在于运行时间越长结果越好[reference:1]。智谱用三个真实场景展示了这种质变场景一向量数据库优化——600轮自主迭代在VectorDBBench任务中GLM-5.1不限制迭代轮次让模型自主决定何时提交新版本。经过600多次迭代、6000多次工具调用最终查询吞吐量从3,547 QPS飙升至21,500 QPS是此前的6倍[reference:2]。更关键的是优化过程呈现6次阶梯式跃升每次都是模型分析自己的性能日志后主动发起的架构级改进[reference:3]。作为对比GLM-5在这个任务上早早就见顶了而GLM-5.1到后期还在持续进步[reference:4]。场景二GPU内核优化——1000轮持续加速在KernelBench Level 3任务中GLM-5.1将PyTorch参考实现优化成了更快的GPU kernel最终达到3.6倍加速比远超torch.compile默认设置的1.15倍和max-autotune的1.49倍[reference:5]。虽然Claude Opus 4.6的4.2倍稍高但GLM-5.1相比GLM-5的进化是质的飞跃——后者早早就停滞不前了[reference:6]。场景三8小时构建Linux桌面——1200步自主交付这是一个最夸张的案例给模型一个提示词“用网页技术构建一个Linux风格桌面环境”没有模板代码没有设计稿没有中间指导[reference:7]。GLM-5.1套了一个外循环每轮执行完后审视自己的输出找出可以改进的地方——缺少的功能、粗糙的样式、有bug的交互——然后继续。这个循环跑了8个小时历经1200多步最终产出了一套功能完善的Linux桌面系统包含完整的桌面、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持和游戏库等4.8MB配套文件相当于一个4人团队一周的开发量[reference:8]。对比意义大多数模型——包括早期版本的GLM——很快就放弃了搞个静态任务栏加一两个占位窗口就宣布完成了。GLM-5.1做到了真正的自主闭环实验 → 分析 → 优化[reference:9]。② 智能体与推理从“写代码”到“做工程”GLM-5.1在智能体工程Agentic Engineering方向的提升同样显著。在长程任务中保持稳定输出模型面对的不仅是更大代码量而是一连串复杂的工程决策点主动跑benchmark、定位瓶颈、修改方案、再跑测试[reference:10]。GLM-5.1实现了从“需求分析-框架搭建-代码编写-漏洞调试-优化迭代”的全流程工程化开发[reference:11]。在异步强化学习框架Slime上的深度优化让模型能从多步骤任务中持续迭代解决了上代模型长任务容易偏离目标的问题[reference:12]。在推理效率上GLM-5.1对DeepSeek稀疏注意力机制做了专属优化在保持200K长上下文效果无损的前提下推理成本降低20%以上Token效率提升15%普通服务器也能高效运行[reference:13]。而这一切的算力支撑完全来自国产芯片——GLM-5/5.1训练于约10万张华为昇腾910B芯片没有使用任何NVIDIA GPU[reference:14]。③ 多维度评测国产模型首次超越Opus 4.6GLM-5.1是唯一达到8小时级持续工作的开源模型也是全球范围内除Claude Opus 4.6外少数具备这一能力的模型[reference:15]。在最接近真实软件开发的SWE-Bench Pro基准测试中GLM-5.1以58.4分刷新全球最佳成绩超越了GPT-5.457.7和Claude Opus 4.657.3成为开源模型新标杆[reference:16]。SWE-Bench Pro要求模型在真实GitHub仓库中定位并修复高难度工程Bug是衡量模型能否胜任专业软件开发的最硬指标[reference:17]。此外在衡量专业软件开发、操作命令行解决问题、从零构建完整代码仓库等三个代表性代码评测基准的平均结果中GLM-5.1取得全球模型第三、国产模型第一、开源模型第一[reference:18]。④ 编程能力飞跃28%的巨大提升编程能力是GLM-5.1最直观的升级。官方编程评测数据显示GLM-5.1的编程基准分数从GLM-5的35.4分直接飙升至45.3分提升幅度达28%[reference:19][reference:20]。这意味着什么45.3分已达到Claude Opus 4.6编程性能的94.6%距离全球最强编程模型仅差2.6分直接超越了多款国际主流闭源模型[reference:21][reference:22]。在推理与知识方面GLM-5.1在AIME 2025数学竞赛中取得92.7%优于DeepSeek、Gemini和Llama等主流模型在GPQA Diamond上达到86.0%在MMLU上达到88-92%均展现出扎实的基础能力[reference:23]。结语GLM-5.1不是一次架构革新而是一次后训练工程的深度胜利[reference:24]。它在GLM-5的基石上通过多任务SFT、推理强化学习、智能体强化学习等渐进对齐技术[reference:25]在不到两个月的时间里将编程能力提升了近三成让长程自主任务从“概念”变成了“现实”。MIT协议 Ollama一键部署 国产芯片全栈适配的组合意味着开发者不需要昂贵的GPU集群在自己的电脑上就能拥有一个能“工作8小时”的AI工程师。现在去终端里敲下ollama pull glm-5.1亲自感受一下国产最强开源模型的生产力吧。

更多文章