【智谱GLM5】信息速评
【智谱GLM5】信息速评:可能是第一个类似于ClaudeOpus级别的开源架构模型
水平:
外网测评称相当于ClaudeOpus4.6的水平(此前的ponyalpha被认为逼近Opus4.5),当前榜单数据未出,海外博主AICodeKing给出一个评测数值,代理编程分值589分,全球榜首,超过ClaudeOpus4.6的585分。
编程能力:
有很大提升,agent展现出自主规划意识、解决了前代模型在长程任务中容易忘记细节或缺乏全局规划的问题。它能够进行文件检查、系统架构校验并提出完整方案;
参数:
根据reddit泄露及YouTube内侧博主测评,采用DeepSeek同款的稀疏注意力机制+tokens预测MTP,GLM-5参数可能达到7440亿,激活参数400亿,激活率5%(GLM4.7是3550亿,激活参数320亿,激活率9%),上下文200K。
智能交互:
当提示词模糊或模型感到困惑时,它会主动询问用户以明确需求,而不再像旧版本那样盲目执行(与claude类似)。
上下文召回:
博主测评各个长度上下文召回均在98%以上,可能置信度有差异,但是也是不错的水平了。
同组任务成本(海外博主数据):
GLM-5:0.14美元
Opus-4.6:6.39美元
Gemini-3-Pro:0.85美元
总结:
参照之前的ponyalpha,能力提升反馈集中在“长程任务、复杂工程、工具调用”,多次出现“逼近Opus4.5”的说法,而最新的一些针对GLM5的测评甚至提出了beatOpus4.6的说法,同时在coding能力大幅提升的前提下,成本优势显著。
发布于 安徽
