关键性能基准对比
编程能力(SWE-bench Verified)
GLM-4.7-Flash :59.2% 152
153
GLM-4.5-Air :57.6% 100
优势 :GLM-4.7-Flash 胜出
推理能力(AIME 25)
GLM-4.7-Flash :91.6% 152
153
GLM-4.5-Air :89.4% 100
优势 :GLM-4.7-Flash 胜出
复杂推理(GPQA)
GLM-4.7-Flash :75.2% 152
153
GLM-4.5-Air :数据未明确100
说明 :GLM-4.7-Flash有数据支持
编程综合能力(LiveCodeBench V6)
GLM-4.7-Flash :64.0% 152
153
GLM-4.5-Air :数据未明确100
说明 :GLM-4.7-Flash有数据支持
工具调用(τ²-Bench)
GLM-4.7-Flash :79.5% 152
153
GLM-4.5-Air :69.4% 100
优势 :GLM-4.7-Flash 胜出
网页交互(BrowseComp)
GLM-4.7-Flash :42.8% 152
153
GLM-4.5-Air :21.3% 100
优势 :GLM-4.7-Flash 显著胜出
发布于 河北
