阿里最新的 Qwen3.7 Max 在 Artificial Analysis Intelligence Index 中超越最新的 Gemini 3.5 Flash，成为排名最高的国产模型。在 atomic.chat 进行的一场俄罗斯方块游戏机器人自我训练与对抗测试中，Qwen 3.7 Max 也展现出了优秀的长程智能体（Agentic）规划与自主进化能力。在这项真实的长智能体

阿里最新的 Qwen3.7 Max 在 Artificial Analysis Intelligence Index 中超越最新的 Gemini 3.5 Flash，成为排名最高的国产模型。在 atomic.chat 进行的一场俄罗斯方块游戏机器人自我训练与对抗测试中，Qwen 3.7 Max 也展现出了优秀的长程智能体（Agentic）规划与自主进化能力。

在这项真实的长智能体（Agentic）任务中，各个模型不仅需要编写出能够玩俄罗斯方块的机器人代码，还要在 10 次迭代中不断阅读自己的代码、运行基准测试并自主优化代码。最终的对比数据，Qwen3.7 Max 优势显著。

Qwen 3.7 Max 仅消耗了 $1.32 的训练成本，便让机器人的游戏表现提升了 56%
Claude Opus 4.7 消耗了高达 $12.15，改进幅度仅为 28%
GPT-5.5 消耗了 $2.85，改进幅度更是只有 7%。

#qwen3.7max##HOW I AI#

发布于上海