国内我最感兴趣的一家AI公司是Minimax。
非大厂,但是在文本、视频、语音、agent全都自研 做到T0的程度,非常有野心,非常对得起「AGI」的愿景。因为我理解的「AGI」必定需要像人类一样的多种感官。
谷歌最近的产品也证明了当一个公司同时具有多领域能力的时候,能力的组合会产生新的增量应用价值,比如gemini做应用时可以直接调用自己的tts、生图等资产生成能力,没有任何被卡脖子的风险。
当然,AGI也非常困难。
最近在b站和小红书上随处可以刷到阿里灵光的推广。各种原本和AI领域没什么关系的人 展示自己如何使用灵光来制作软件 从而解决自己的小需求。
基本都是那种非常小、非常本地的需求,但感觉足以打开大众对于AI的认知:从“单纯地获取文字解决方案” 到 “自己用它可以创造些什么”。
又想到Minimax,因为我作为大众 一次也刷不到它的推广,我在公众视野里见到它的名字,基本只在各类视频模型的效果对比里,你能看到「海螺」的名字,和可灵、即梦、Sora、Veo一起被摆在台面上。
而这已经是它距离大众认知最近的时候了。但这种时刻并不是一种曝光的优异时刻,首先“最好”是一种消耗观者注意力的判断,同时还要做到“最好”、时刻保持不被明显超越,才能被有效地选择。
但它在我这获得了明显偏爱的时刻,是它的agent。
当然,首先agent场景本身的性质,就不像视频、语音那样,理解门槛那么低。
但这不代表它无法被更好地传递给大众。
Minimax它agent的问题归纳起来就是模糊,从向用户的传达,到解决问题的边界,都是模糊的。
它的agent是通用agent,也就是目的模糊,且采用的还是对话框形式,乍一看,你甚至感觉不到为什么要使用它,毕竟我已经有了无数的选择:gpt、gemini、claude、豆包、deepseek,等等。
但你又在它的页面里察觉出了一点端倪,它展示自己的能力 又远超了你对gpt等文字(顶多加图片)的产品的想象:Minimax的agent所展示的案例里 从做网页、到做ppt、到做视频、做绘本故事、做深度研究报告 应有尽有。
这些都是别人所做出的例子,可以理解为一种模版,你能观看到对话的全过程回放,还能把这些别人的例子加载下来修改 —— 并向原创者支付一定的积分。也许这里也有过一些商业模式的探索。
当实际使用时,我又被它内部的能力所震惊,举个例子:它给你做网页时,会自动帮你一起处理难倒大众的api key设置、会自动帮你连接supabase 帮你处理难倒大众的部署上线问题。
做深度研究时,它不止会搜索网页,而且会模拟网页里的点击,自动填写表单、自动查询,这对于获取非报道类的、更需要及时性的信息 非常非常有用,而且保证了信息是第一手。
这些实打实的痛点解决,又完全 完完全全地 只有深度使用者才能被发现。
但明明,小红书上随便一篇 教你怎么把自己做的应用部署上线 就会有很大的浏览。
需求的人在那,解决方案做了,但你猜怎么着,完全脱节。
上面说的是“向用户的传达”的模糊。
再来说说“解决问题的边界”模糊,这是通用agent很难、但也很值得解决的问题,从算法到工程。
举个例子:我问一个较为简单的研究问题,比如“今天美股开盘将会对虚拟货币造成的影响”,它整整自己运行了一个小时,研究的范围跨度有十年,整出了一大堆报告。
hello? 我没暂停它的主要原因是想看看到底能折腾出什么幺蛾子。
Deepseek刚上线的时候,我发给它了一个井号,它自己深度思考了好几分钟,然后自己解了一道数学题 —— 就是这种感觉,倒也是一种“新人美”,测试不足、并不稳定、不过也挺新鲜。
刚又看了Minimax、还有月之暗面(做Kimi的那个)从成立到每一轮融资、各种运营策略调整的过程,感叹作为一个技术强驱动、但to C也算交出了不错成绩的非大厂,已然不易。但被字节狠狠挤占了生存空间也是必然。
不过还是喜欢看非大厂的故事,哈哈哈哈哈。争论或者证明谁会是中国的openAI也没什么意义,我总觉得 可以有自己的故事要写。
#ai创造营##数学的技术笔记#
