零重力瓦力
26-05-23 12:03 微博认证:AI博主

阿里最新的 Qwen3.7 Max 在 Artificial Analysis Intelligence Index 中超越最新的 Gemini 3.5 Flash,成为排名最高的国产模型。 在 atomic.chat 进行的一场俄罗斯方块游戏机器人自我训练与对抗测试中,Qwen 3.7 Max 也展现出了优秀的长程智能体(Agentic)规划与自主进化能力。

在这项真实的长智能体(Agentic)任务中,各个模型不仅需要编写出能够玩俄罗斯方块的机器人代码,还要在 10 次迭代中不断阅读自己的代码、运行基准测试并自主优化代码。最终的对比数据,Qwen3.7 Max 优势显著。

Qwen 3.7 Max 仅消耗了 $1.32 的训练成本,便让机器人的游戏表现提升了 56%
Claude Opus 4.7 消耗了高达 $12.15,改进幅度仅为 28%
GPT-5.5 消耗了 $2.85,改进幅度更是只有 7%。

#qwen3.7max##HOW I AI#

发布于 上海