新智元 25-11-03 14:29
微博认证:新智元官方微博

北京智源研究院(BAAI)正式发布了其悟界·Emu系列的最新成果——Emu3.5。

在技术交流会上,智源研究院院长王仲远博士将其定位为「开启多模态世界大模型新纪元」的里程碑。

项目主页:https://zh.emu.world

技术报告:http://t.cn/AXANAiHQ

「并不一定所有的大模型技术路线都要完全跟随别人已经走过的路,我们自己也在开创一些新的技术路径。」王仲远表示,「Emu系列是我们自己走出来的技术路线,我们是引领性的。」

与当前主流的、将理解与生成分开处理的「模块拼接式」多模态模型(如LLM+CLIP及DiT架构)不同,Emu3.5回归「第一性原理」,像人类一样从连续、长时程的视觉经验中学习,用统一的自回归架构实现了对多模态世界的原生理解与生成。

「通过悟界·Emu3,我们验证了自回归架构实现多模态理解与生成大一统的可行性,」王仲远表示,「从Emu3到Emu3.5,我们证明了多模态也存在一个Scaling的范式。」

这个340亿参数的模型,在长文本渲染、复杂图像编辑、视觉故事生成等多个维度上,其表现足以让业界惊叹「Wow」。更重要的是,它所展现出的对物理世界动态、因果、时空、逻辑的深刻理解,预示着AI正加速从数字世界迈向物理世界。

智源公开了长达45页的详尽技术报告,将其数据处理、模型架构、训练方式、推理加速等技术细节全盘托出。