GLM-5.1实测效果如何,能否成为Claude Opus 4.6的平替?

摘要:3月27号,智谱GLM-5.1,突然上线了! 这次来得太快、太猛,距离GLM-5发布也才一个多月。 这次发布,官方公告很是低调,只有寥寥一句话: GLM-5.1现已面向GLM Coding Plan全部用户(LiteProMax)开放。
3月27号,智谱GLM-5.1,突然上线了! 这次来得太快、太猛,距离GLM-5发布也才一个多月。 这次发布,官方公告很是低调,只有寥寥一句话: GLM-5.1现已面向GLM Coding Plan全部用户(Lite/Pro/Max)开放。 别的没再多说,只是默默甩出Coding Evaluation评测结果—— 在编程能力上跑分45.3,相比上一代GLM-5直接飙升近10分。 甚至嘛,距离当前全球最强编程模型Claude Opus 4.6,也就只有2.6分之差!!! 换句话说:一个开源模型,做到了闭源天花板94.6%的水平。 这不是渐进式的进步,这是降维打击。 此外值得一提的是,此次的GLM-5.1版本率先向GLM Coding Plan所有用户开放,是的,你没听错,面向所有GLM coding plan用户。(Lite用户也能用了~) 我要哭晕在厕所,我花了大几千块钱的Max包年套餐,是不是白开了😭 一、GLM-5.1 模型升级了个啥? 翻看官方资料得知,此次官方对GLM-5.1模型的升级定位:它是面向长程任务的开源第一模型,在长时间跨度、长链路依赖、多工具协同、持续执行、目标保持等关键能力方面有显著提升,能像资深工程师一样交付完整工作的目标。 啥意思?❓ 什么是长程任务?简单来说,长程任务就是:需要多轮交互、要分很多步骤一步步推进,还得记住前面干了啥、后面该干啥的复杂任务。或者你可以理解为步骤多、链条长、强依赖、需要长期规划、具备状态记忆、跨文件工程、和持续跟进的端到端复杂项目交付任务。 是否具备长程任务能力,是衡量 AI Agent 从 “工具调用” 走向 “自主执行复杂任务” 的核心标尺。也是衡量模型真实智能的新门槛,而GLM-5.1是当前长程任务的开源模型断档第一。 接下来,我用通俗且不失专业的方式,帮你解释一下,这次 GLM-5.1主要升级的核心能力有哪些: 拥有更强的长程规划与目标保持: 就是说,你给它一个目标,它自己拆出整条路径。 GLM-5.1支持把复杂目标拆解为可执行的多阶段计划,并在长链路执行中始终围绕最终交付推进——不是"你说一步它做一步",而是自主规划、自主推进、中途遇到意外自己修正,减少跑偏、遗忘约束或陷入局部最优。模型能够自主完成需要数小时、跨十几个步骤的完整工程任务,交付物可直接使用。 更稳的多工具协同与持续执行: 不是"会做一步",而是"能跑完全程"。 模型在代码编写、工具调用、环境调试、API对接等多个环节之间实现了更稳定的衔接,支持更长时间跨度的连续执行。过去开源模型在长任务后半程容易断链、需要人工介入的问题,在GLM-5.1上得到了显著改善——中间环节出错时能自主排查修复,而不是停下来等你。 更好的状态延续与上下文整合:干到第十步,还记得第二步定的规矩。 面对长时间跨度、多轮反馈和大量上下文信息,GLM-5.1能稳定地追踪已完成的内容、当前所处阶段和下一步关键动作,持续整合新信息,保持执行链路的一致性。不再出现"做到一半忘了前面的约束"的问题。 上面讲了这么多文绉绉的内容,作为国产AI大模型的拥立者,这次GLM-5.1模型的发布,没有啥好说的,直接开测。 二、先看看数据,不吹不黑 GLM-5.1 如果从数据上来看,这份成绩单,可以说是直接把牌桌掀了: 编程能力: 编程评测得分 45.3(Claude Opus 4.6 为 47.9) SWE-bench Verified 77.8%——开源模型史上最高 相比上代GLM-5提升了整整 28% 需要强调的是,这个评测只有通过 Claude Code 接入的模型才有数据,Gemini 3.1 Pro(用 Antigravity)和 GPT-5.4(用 Codex)并没有可比数据,所以图里只展示了有真实成绩的模型。 三、技术上到底做了什么? GLM-5.1 这次模型升级,并不是简单的"加参数、堆数据",它此次的进化路线非常有章法, 先看张表格 参数项 规格 总参数数量 744B (MoE 架构,256个专家) 活跃参数 40B 上下文窗口 200K tokens 最大输出 131,072 tokens 架构特性 MLA + DeepSeek Sparse Attention Claude Code 编码评分 45.3 (Opus 4.6 为 47.9,达 94.6%) 什么?你说你看不懂??? 额🤣,那也没关系,我直接来帮你解释一下: 架构升级: 从355B参数(32B激活)扩展到744B参数(40B激活)的MoE架构。注意,激活参数只增加了8B,但能力飞跃式增长——这说明架构效率极高。
阅读全文