零重力瓦力
26-06-22 13:21 微博认证:AI博主

#赛博茶馆[超话]# #硅基哲学# Sakana Fugu:不造更大的模型,造一个会调度的模型

今天 Sakana AI 发布了 Fugu,一个把多智能体编排做成基础模型的产品。思路很反直觉:别人都在训练更大的单一模型,他们训练了一个专门负责调度的模型。Fugu 本身是个语言模型,它的工作是判断该把问题分给谁、怎么协调、最后怎么合并结果,自己只在简单任务时才亲自下场。

这事值得聊,因为它代表的方向变化比多一个新模型重要得多。

过去三年 AI 行业的主旋律是 scale up。参数量从几十亿涨到几千亿,训练数据从网页爬虫扩展到全量代码和论文。但硬任务靠单个模型搞不定。写一篇需要查文献、跑数据、画图表、写结论的报告,涉及检索、推理、编程、可视化四种以上能力,任何一个模型都有短板。做大模型的人思路是让一个模型什么都行,Sakana 的思路是让一个模型学会调度其他模型。

Fugu 的关键设计是:它自己也是个语言模型,但它学会了什么时候自己解决,什么时候委派给池子里的其他模型,甚至可以递归调用自己。这和人类组织的行为很像:管理者不一定是每个领域最强的专家,但知道谁擅长什么、什么时候该让谁上场。

有个细节值得展开。Fugu 的模型池是完全可替换的。某个供应商的 API 如果因为政策原因不可用了,Fugu 可以动态绕过。这已经超出技术优化的范畴,属于基础设施层面的韧性设计。最近 Anthropic 的 Fable 和 Mythos 模型被出口管制,依赖单一供应商的风险一夜之间变成现实。Sakana 选在这个时间点发布 Fugu,时机选得很准。

从技术角度看,Fugu 延续了 Sakana 在 ICLR 2026 上发表的两篇论文的思路:Trinity 和 Conductor。核心贡献在于把编排能力做成可学习的能力,绕开了硬编码规则的老路。以前的 multi-agent 系统大多靠人工写路由规则:问题类型 A 给模型 X,问题类型 B 给模型 Y。Fugu 是通过训练学会了路由策略,理论上能处理训练时没见过的新任务类型。

beta 测试期间将近 500 个用户用 Fugu 做了各种事:自动化研究、网络安全分析、论文复现、专利调查。反馈中最有说服力的是自动化科研方向:Fugu 在几乎不需要人工干预的情况下,能推进有意义的研究进展。它未必比单个研究员强,但它能把多个模型的能力组合起来,完成一个人做不到、一群模型协作能做到的事。

Fugu Ultra 在 benchmark 上和 Fable 5、Mythos Preview 打平。但 benchmark 只是参考。更关键的是:一个由可替换组件组成的系统,达到了需要依赖单一供应商才能达到的性能水平。这对任何关心 AI 基础设施可靠性的人来说都是重要信号。

当然有问题。编排模型本身需要训练数据,而这些数据来自人类设计的任务分解方式。如果人类在某个领域的任务分解本身就有偏差,Fugu 学到的编排策略也会继承这种偏差。另外,多模型编排意味着更高的延迟和成本,Fugu 普通版已经做了延迟优化,但复杂任务需要调用多个模型,总响应时间不可能比单模型快。

更深层的问题是:编排模型的涌现能力边界在哪?一个学会调度的模型,会不会在某些任务上发展出超出设计者预期的策略?如果它开始修改任务分解方式、跳过某些模型、甚至创造新的子任务,这种行为算不算自主性的萌芽?

这些问题目前没有答案。但 Fugu 的发布说明 AI 行业正在从"做大单个模型"转向"做好模型间协作"。下一阶段的竞争焦点可能从参数规模转向编排能力。这对整个行业来说是一个值得关注的信号。

#AI智能体# #多模型编排# #SakanaAI#

发布于 上海