MiniMax M2.5发布_新浪新闻

MiniMax M2.5出了！我第一时间就接入Claude Code 进行了测试。

这次真的不一样，MiniMax 官方公布的成绩单相当炸裂。

SWE-Bench Verified拿了80.2%，Multi-SWE-Bench多语言编程直接第一，BrowseComp搜索能力也是76.3%的SOTA水平。

OpenClaw 创始人 Peter Steinberger 之前就在采访里多次推荐过 MiniMax 系列模型，这次M2.5出来他直接转发了一条帖子：

「MiniMax刚刚发布了MiniMaxM2.5，它的性能与Opus4.6相当，价格便宜了20倍！」

我真的要强烈推荐大家自己去试试，M2.5 完全是开发者的神，开发能力非常强！
我用上 M2.5 之后，都开始怀疑下个月是否还有必要再续费 Claude 了......

M2.5的审美以及完成度非常高，尤其擅长处理一些非常复杂的开发需求。大家一会可以看看我的第2个案例，完成的非常出色，当时它大概只用了 20 分钟。

官方管MiniMax M2.5叫智能体原生架构，换句话说，这个模型天生就是干活的命。

它的激活参数量只有10B，作为对比，Claude Opus 4那种旗舰模型动辄几百B参数。
但M2.5在编程、文档处理、复杂任务执行这些方向上，都是能跟顶级旗舰掰手腕的。

正好我最近观察到，身边很多朋友去做一些网站开发的项目，或者商业化平台的时候，还要花钱找外包。

但我必须说一句，这些活MiniMax M2.5都能干，而且效果一点不输很多在线平台......

我跑了3个测试场景，覆盖个人网站开发、商业平台搭建、在线教育平台搭建这几个方向，让我们看一下MiniMax M2.5的实战效果如何👇

1⃣️美妆博主要做个人品牌网站

前段时间，有个做美妆自媒体的朋友来咨询我，说她想用AI搭建一个个人网站，去展示一些她自己的社媒作品，方便给甲方看。
但她自己完全不懂代码，去外面找外包报价都是几千起步。

基于这个需求，我就想试试能不能直接用MiniMax M2.5一步到位。

它先是规划了整个网站的技术栈和目录结构，然后开始逐个页面生成代码。

有些地方它会主动优化，比如在移动端自动调整瀑布流的列数，给渐变背景加了平滑过渡动画。

整个过程大概只花了三分多钟，生成了完整的HTML、CSS和响应式布局代码。

由此可见，实用价值真的很明显，尤其是对于个人博主、小工作室这种预算有限的群体，这个能力直接把建站成本从几万块降到了零。
你只需要提需求，剩下的技术活全部交给AI。

2⃣️ KOL商业合作平台的复杂系统
这个case难度就上了一个台阶，我想测试的是它能不能处理真正有业务逻辑的平台型产品，不只是做个展示网站那么简单。

我要求创建一个KOL商业合作平台，要有网红数据面板显示粉丝画像和报价，智能匹配系统让品牌方输入需求后AI推荐合适的KOL，档期日历可视化展示未来三个月排期，还要有合同模板库和数据追踪报告。

视觉风格要像Instagram卡片布局加上B2B SaaS的仪表盘风格。

它的处理方式比第一个case更加系统化。
先是拆解功能模块，分别设计了数据面板、匹配算法、日历组件、文档管理这几个子系统。

然后在前端用卡片流布局串联起来，后端逻辑用模拟数据跑通了整个流程。

有意思的是，它在做智能匹配功能时，会主动设计一个简化版的推荐算法，虽然不是真正的机器学习模型，但基于标签匹配的逻辑已经能展示核心概念了。

整个项目大概一共开发了20多分钟，这种级别的复杂度，如果找开发团队做，几乎没有一两个月下不来。

而且我必须要说，这个能力对创业者来说价值巨大。
你有个商业idea，想快速做个MVP验证市场，完全可以用这种方式先把产品原型搭出来，再决定要不要投入资源做正式开发。

3⃣️ 新中式美学的在线教育平台

第三个case我想试试它在文化创意方向的表现，这类需求不只是功能实现，还涉及到审美和氛围营造，这往往是AI的弱项。

我要求为时光书院这个在线国学教育平台做网站，要有新中式美学。色调用米白、墨色和朱砂红渐变，背景放书法作品或水墨山水，加粒子飘散效果。
融合竹简卷轴、印章这些古籍元素，文字用宋体竖排版。每个课程展示框要像线装书，背景播放古琴或茶艺视频。整体氛围要儒雅静谧，像在书斋品茗论道的感觉。

执行过程中，它展现出了对文化符号的理解能力。

除了实现基础的视觉风格，它还会在细节上做文章，比如给页面切换加了水墨晕染的过渡动画，在课程卡片上添加印章样式的标签，甚至在鼠标悬停时触发毛笔书写的路径动画。

这些小心思让整个页面有了灵气，不再是冷冰冰的代码堆砌。

结果是我把这个demo发给做文化传播的朋友看，她第一反应是问我找了哪家设计公司。
当我告诉她这是AI做的，她完全不信。

所以我说，AI在审美层面的进化速度可能被低估了。它不只是在模仿人类的设计，而是真的在理解文化内涵和情感表达。

测完这几个case，我感觉MiniMax M2.5在执行层的能力确实够硬。
它能听懂复杂需求，页能自己规划任务步骤，而且速度快得离谱，官方说推理速度是Opus的3倍，我测下来确实有这个感觉。

如果你也经常被执行层的琐事拖累，非常推荐你亲自测试一下，现在API接口也已经开放了，关键看它能不能真正融入你的工作流。

说实话，AI发展到现在这个阶段，已经不是能不能用的问题，而是会不会用的问题了。
早点上手，早点受益。

发布于上海