新智元 26-01-29 20:49
微博认证:新智元官方微博

刚刚,国内AI公司,又给了业界不小的震撼。

蚂蚁灵波科技发布的LingBot-World,刚刚成为开源SOTA级的世界模型。

可以说,它已经全面对标了谷歌Genie 3,甚至在一些性能指标上超越了Genie 3!

更令人震撼的是,LingBot-World是开源的。开源阵营,又一次领跑,彻底打破了闭源垄断。

Demo一放出,立刻惊呆了外国网友。

才没过多久,X上已经被LingBot-World刷屏了,直接登顶了热搜榜的TOP 1。

海外网友疯狂打call,直呼这个来自中国的模型太震撼了!

更耐人寻味的是,LingBot-World在X上发布后,Genie甚至宣布将于近期开源。

全面对标Genie 3

在可交互性、生成质量、物理一致性和生成时长上,LingBot-World都能全面对标Genie 3。

可能你会问,为什么要对标Genie 3?

不可否认的是,谷歌DeepMind发布的Genie 3,代表着该领域的最高水平。

然而Genie 3有一个大问题:它是闭源的,因而社区无法基于它进行开发和迭代。因此如果学术界和初创公司想训练一个高质量世界模型,门槛是极高的。

Genie 3仍处于闭源状态

但蚂蚁灵波的这次开源,直接就让大家拥有了SOTA级的物理仿真底座,根本无需从零造轮子。

无论是代码、权重还是数据管线,都全部公开,全球社区都将依此打造无限可玩的下一代虚拟世界!

在多个领域,LingBot-World都能打造高保真、高动态、高物理一致性的可交互动态环境,包括照片级真实景观、科学可视化和风格和的艺术世界

让我们具体来看看,LingBot-World具有哪些性能优势?

首先,这是一个高保真的世界模型。

它能进行多模态的角色模拟,具备强大的泛化能力。猫怎么跳、蚂蚁怎么爬,关羽怎么挥刀、龙骑士怎么起飞,这背后复杂的物理动态和行为逻辑,它都能理解和模拟。同时,还能模拟极具表现力的动态环境。

细粒度可控性,让它实现了对角色相机的精准控制;Zero-shot的交互生成,还能把故宫实拍这类真实场景和游戏截图直接生成可交互的视频流。

其次,它有着SOTA级长视频生成能力,还是完全开源的!

一个真正厉害的世界模型,就在于不仅记得住,还能记得久。

LingBot-World的长时记忆,即便在大幅度运镜或长时间跨度下,依然能让主体特征保持稳定性,不漂移、不遗忘。

最后,它的下游应用潜力也是巨大的。

因为整个世界都能讲得通,物理仿真环境前后一致、逻辑自洽,还有稳定的长时记忆,它就成为了3D场景重建和具身智能、游戏Agent训练的理想底座。

可以说,这是一个永远不会塌的训练场:世界是稳定的,时间是连续的,智能体可以在里面不断试错、不断成长。