由两名前谷歌员工、访问学者创立的 Genmo 发布开源视频模型 Mochi 1 预览版,根据 Apache 2.0 许可,适用于个人和商业使用。
目前开源的是 480p 模型,Genmo 计划在今年晚些时候发布 Mochi 1 HD,它将支持 720p 分辨率并提供更出色的运动精度。
Genmo 表示 Mochi 1 基于其 AsymmDiT(Asymmetric Diffusion Transformer)架构构建了一个包含 100 亿个参数的扩散模型。
用户可以在 Hugging Face 上免费下载完整权重和模型代码,但需要在自己的机器上运行,至少需要 4 个 Nvidia H100 GPU。
官方网站目前也可以玩,简单试了一下,感觉效果一般。链接:http://t.cn/A6nwZpjI
Genmo 首席执行官 Paras Jain 曾创立 DeepScale,部署用于自动驾驶车辆的小型边缘 ML 模型,后被特斯拉收购;2020-2021 年,他曾在谷歌担任 1 年的访问学者。其他成员方面,Genmo 称其员工包括 DDPM、DreamFusion 和 Emu Video 的作者。
另外,Gemo 还宣布完成 2840 万美元的 A 轮融资,投资者包括 NEA、The House Fund、GOLD HOUSE、WNDRCO、Abhay Parasnis(Typeface CEO)、Amjad Masad(Replit CEO)、Michele Catasta(Replit 总裁)等。 http://t.cn/A6nwZWEj
发布于 北京
