智谱GLM5信息速评

【智谱GLM5】信息速评

【智谱GLM5】信息速评：可能是第一个类似于ClaudeOpus级别的开源架构模型
水平：
外网测评称相当于ClaudeOpus4.6的水平（此前的ponyalpha被认为逼近Opus4.5），当前榜单数据未出，海外博主AICodeKing给出一个评测数值，代理编程分值589分，全球榜首，超过ClaudeOpus4.6的585分。
编程能力：
有很大提升，agent展现出自主规划意识、解决了前代模型在长程任务中容易忘记细节或缺乏全局规划的问题。它能够进行文件检查、系统架构校验并提出完整方案；
参数：
根据reddit泄露及YouTube内侧博主测评，采用DeepSeek同款的稀疏注意力机制+tokens预测MTP，GLM-5参数可能达到7440亿，激活参数400亿，激活率5%（GLM4.7是3550亿，激活参数320亿，激活率9%），上下文200K。
智能交互：
当提示词模糊或模型感到困惑时，它会主动询问用户以明确需求，而不再像旧版本那样盲目执行（与claude类似）。
上下文召回：
博主测评各个长度上下文召回均在98%以上，可能置信度有差异，但是也是不错的水平了。
同组任务成本（海外博主数据）：
GLM-5：0.14美元
Opus-4.6:6.39美元
Gemini-3-Pro：0.85美元
总结：
参照之前的ponyalpha，能力提升反馈集中在“长程任务、复杂工程、工具调用”，多次出现“逼近Opus4.5”的说法，而最新的一些针对GLM5的测评甚至提出了beatOpus4.6的说法，同时在coding能力大幅提升的前提下，成本优势显著。

发布于安徽