通义实验室
26-05-28 16:47 微博认证:通义大模型官方微博

更进一步,Qwen3.7-Max全球前三![期待]

全球权威评测机构 Artificial Analysis 联合IBM推出全新基准测试——ITBench-AA,旨在评估模型在企业级IT任务中的表现。

ITBench-AA 的 SRE 任务基准测试旨在评估模型在 Kubernetes 事件响应方面的性能,要求模型和Agent通过读取日志、追踪依赖关系以及识别复杂基础设施中的根本原因实体来诊断实时系统。

Qwen3.7-MAX成绩为42%,仅次于Claude Opus 4.7和GPT5.5,拿下全球第三!

在面对企业级长任务,Qwen3.7-MAX展现了极其可靠的稳定性。实测连续运行35+小时,1158次工具调用零中断!

🔗立即体验:
API接入:阿里云百炼平台
在线体验:chat.qwen.ai
#通义实验室#

发布于 浙江