Minimax的AGI愿景分析

国内我最感兴趣的一家AI公司是Minimax。
非大厂，但是在文本、视频、语音、agent全都自研做到T0的程度，非常有野心，非常对得起「AGI」的愿景。因为我理解的「AGI」必定需要像人类一样的多种感官。
谷歌最近的产品也证明了当一个公司同时具有多领域能力的时候，能力的组合会产生新的增量应用价值，比如gemini做应用时可以直接调用自己的tts、生图等资产生成能力，没有任何被卡脖子的风险。
当然，AGI也非常困难。

最近在b站和小红书上随处可以刷到阿里灵光的推广。各种原本和AI领域没什么关系的人展示自己如何使用灵光来制作软件从而解决自己的小需求。
基本都是那种非常小、非常本地的需求，但感觉足以打开大众对于AI的认知：从“单纯地获取文字解决方案” 到 “自己用它可以创造些什么”。

又想到Minimax，因为我作为大众一次也刷不到它的推广，我在公众视野里见到它的名字，基本只在各类视频模型的效果对比里，你能看到「海螺」的名字，和可灵、即梦、Sora、Veo一起被摆在台面上。
而这已经是它距离大众认知最近的时候了。但这种时刻并不是一种曝光的优异时刻，首先“最好”是一种消耗观者注意力的判断，同时还要做到“最好”、时刻保持不被明显超越，才能被有效地选择。
但它在我这获得了明显偏爱的时刻，是它的agent。

当然，首先agent场景本身的性质，就不像视频、语音那样，理解门槛那么低。
但这不代表它无法被更好地传递给大众。
Minimax它agent的问题归纳起来就是模糊，从向用户的传达，到解决问题的边界，都是模糊的。

它的agent是通用agent，也就是目的模糊，且采用的还是对话框形式，乍一看，你甚至感觉不到为什么要使用它，毕竟我已经有了无数的选择：gpt、gemini、claude、豆包、deepseek，等等。
但你又在它的页面里察觉出了一点端倪，它展示自己的能力又远超了你对gpt等文字（顶多加图片）的产品的想象：Minimax的agent所展示的案例里从做网页、到做ppt、到做视频、做绘本故事、做深度研究报告应有尽有。
这些都是别人所做出的例子，可以理解为一种模版，你能观看到对话的全过程回放，还能把这些别人的例子加载下来修改 —— 并向原创者支付一定的积分。也许这里也有过一些商业模式的探索。
当实际使用时，我又被它内部的能力所震惊，举个例子：它给你做网页时，会自动帮你一起处理难倒大众的api key设置、会自动帮你连接supabase 帮你处理难倒大众的部署上线问题。
做深度研究时，它不止会搜索网页，而且会模拟网页里的点击，自动填写表单、自动查询，这对于获取非报道类的、更需要及时性的信息非常非常有用，而且保证了信息是第一手。

这些实打实的痛点解决，又完全完完全全地只有深度使用者才能被发现。
但明明，小红书上随便一篇教你怎么把自己做的应用部署上线就会有很大的浏览。
需求的人在那，解决方案做了，但你猜怎么着，完全脱节。

上面说的是“向用户的传达”的模糊。
再来说说“解决问题的边界”模糊，这是通用agent很难、但也很值得解决的问题，从算法到工程。
举个例子：我问一个较为简单的研究问题，比如“今天美股开盘将会对虚拟货币造成的影响”，它整整自己运行了一个小时，研究的范围跨度有十年，整出了一大堆报告。
hello? 我没暂停它的主要原因是想看看到底能折腾出什么幺蛾子。

Deepseek刚上线的时候，我发给它了一个井号，它自己深度思考了好几分钟，然后自己解了一道数学题 —— 就是这种感觉，倒也是一种“新人美”，测试不足、并不稳定、不过也挺新鲜。

刚又看了Minimax、还有月之暗面（做Kimi的那个）从成立到每一轮融资、各种运营策略调整的过程，感叹作为一个技术强驱动、但to C也算交出了不错成绩的非大厂，已然不易。但被字节狠狠挤占了生存空间也是必然。
不过还是喜欢看非大厂的故事，哈哈哈哈哈。争论或者证明谁会是中国的openAI也没什么意义，我总觉得可以有自己的故事要写。

#ai创造营##数学的技术笔记#

发布于上海