GLM-5.1实测效果如何,能否成为Claude Opus 4.6的平替?
摘要:3月27号,智谱GLM-5.1,突然上线了! 这次来得太快、太猛,距离GLM-5发布也才一个多月。 这次发布,官方公告很是低调,只有寥寥一句话: GLM-5.1现已面向GLM Coding Plan全部用户(LiteProMax)开放。
3月27号,智谱GLM-5.1,突然上线了!
这次来得太快、太猛,距离GLM-5发布也才一个多月。
这次发布,官方公告很是低调,只有寥寥一句话:
GLM-5.1现已面向GLM Coding Plan全部用户(Lite/Pro/Max)开放。
别的没再多说,只是默默甩出Coding Evaluation评测结果——
在编程能力上跑分45.3,相比上一代GLM-5直接飙升近10分。
甚至嘛,距离当前全球最强编程模型Claude Opus 4.6,也就只有2.6分之差!!!
换句话说:一个开源模型,做到了闭源天花板94.6%的水平。 这不是渐进式的进步,这是降维打击。
此外值得一提的是,此次的GLM-5.1版本率先向GLM Coding Plan所有用户开放,是的,你没听错,面向所有GLM coding plan用户。(Lite用户也能用了~)
我要哭晕在厕所,我花了大几千块钱的Max包年套餐,是不是白开了😭
一、GLM-5.1 模型升级了个啥?
翻看官方资料得知,此次官方对GLM-5.1模型的升级定位:它是面向长程任务的开源第一模型,在长时间跨度、长链路依赖、多工具协同、持续执行、目标保持等关键能力方面有显著提升,能像资深工程师一样交付完整工作的目标。
啥意思?❓
什么是长程任务?简单来说,长程任务就是:需要多轮交互、要分很多步骤一步步推进,还得记住前面干了啥、后面该干啥的复杂任务。或者你可以理解为步骤多、链条长、强依赖、需要长期规划、具备状态记忆、跨文件工程、和持续跟进的端到端复杂项目交付任务。
是否具备长程任务能力,是衡量 AI Agent 从 “工具调用” 走向 “自主执行复杂任务” 的核心标尺。也是衡量模型真实智能的新门槛,而GLM-5.1是当前长程任务的开源模型断档第一。
接下来,我用通俗且不失专业的方式,帮你解释一下,这次 GLM-5.1主要升级的核心能力有哪些:
拥有更强的长程规划与目标保持: 就是说,你给它一个目标,它自己拆出整条路径。 GLM-5.1支持把复杂目标拆解为可执行的多阶段计划,并在长链路执行中始终围绕最终交付推进——不是"你说一步它做一步",而是自主规划、自主推进、中途遇到意外自己修正,减少跑偏、遗忘约束或陷入局部最优。模型能够自主完成需要数小时、跨十几个步骤的完整工程任务,交付物可直接使用。
更稳的多工具协同与持续执行: 不是"会做一步",而是"能跑完全程"。 模型在代码编写、工具调用、环境调试、API对接等多个环节之间实现了更稳定的衔接,支持更长时间跨度的连续执行。过去开源模型在长任务后半程容易断链、需要人工介入的问题,在GLM-5.1上得到了显著改善——中间环节出错时能自主排查修复,而不是停下来等你。
更好的状态延续与上下文整合:干到第十步,还记得第二步定的规矩。 面对长时间跨度、多轮反馈和大量上下文信息,GLM-5.1能稳定地追踪已完成的内容、当前所处阶段和下一步关键动作,持续整合新信息,保持执行链路的一致性。不再出现"做到一半忘了前面的约束"的问题。
上面讲了这么多文绉绉的内容,作为国产AI大模型的拥立者,这次GLM-5.1模型的发布,没有啥好说的,直接开测。
二、先看看数据,不吹不黑
GLM-5.1 如果从数据上来看,这份成绩单,可以说是直接把牌桌掀了:
编程能力:
编程评测得分 45.3(Claude Opus 4.6 为 47.9)
SWE-bench Verified 77.8%——开源模型史上最高
相比上代GLM-5提升了整整 28%
需要强调的是,这个评测只有通过 Claude Code 接入的模型才有数据,Gemini 3.1 Pro(用 Antigravity)和 GPT-5.4(用 Codex)并没有可比数据,所以图里只展示了有真实成绩的模型。
三、技术上到底做了什么?
GLM-5.1 这次模型升级,并不是简单的"加参数、堆数据",它此次的进化路线非常有章法, 先看张表格
参数项
规格
总参数数量
744B (MoE 架构,256个专家)
活跃参数
40B
上下文窗口
200K tokens
最大输出
131,072 tokens
架构特性
MLA + DeepSeek Sparse Attention
Claude Code 编码评分
45.3 (Opus 4.6 为 47.9,达 94.6%)
什么?你说你看不懂???
额🤣,那也没关系,我直接来帮你解释一下:
架构升级: 从355B参数(32B激活)扩展到744B参数(40B激活)的MoE架构。注意,激活参数只增加了8B,但能力飞跃式增长——这说明架构效率极高。
