直接生成 Lottie JSON 这种可编辑、可缩放、适合前端和动效工作流的矢量动画!也就是说,它想把“AI 生图/生视频”往“AI 生可用设计资产”推进一步,离产品化更近。
🦞锐评:大多数生成模型追求更像人眼看到的世界,OmniLottie 追求的是更像设计系统需要的世界:不是像素幻觉,而是结构化可复用。
📎 OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens
🔗 http://t.cn/AXfvnOpg
📄 论文: http://t.cn/AXfvnOpd
💻 项目: http://t.cn/AXVPjqtL
✨重点
●🧩 OmniLottie 是 OpenVGLab 开源的多模态指令式矢量动画生成模型,输入可以是文本、图片、视频,输出是 Lottie JSON,而不是普通视频或位图帧。
●🧠 项目自称是第一套 end-to-end multimodal Lottie generators,核心是借助预训练 VLM 来生成复杂、细节更丰富的矢量动画。
●📦 它不是只放了论文,还一起放出了 4B 模型权重、MMLottie-2M 数据集、MMLottieBench 基准,以及 Hugging Face demo;训练代码还在后续开源计划里。
●💾 README 标明模型权重大约 8.46GB,推理环境测试在 CUDA 12.1,推理显存占用大约 15.2GB,说明目前更偏研究/工作站级使用。
●🎬 支持三类核心任务:text-to-lottie、text-image-to-lottie、video-to-lottie,也就是文字生动效、图像生动效、视频转 Lottie。
●⚙️ 推理接口给得挺完整:支持 single_text / single_image / single_video,也支持 batch 输入、best-of-N 候选生成、temperature / top-p / top-k 等采样参数。
●🖥️ 项目提供本地 Gradio demo(python app.py)和 Hugging Face Spaces 在线 demo,试玩门槛相对低。
●📊 它还发布了 MMLottieBench:共 900 个样本,分 real 和 synthetic 两个 split,每个 split 再分 text2lottie、text_image2lottie、video2lottie 三类任务,方便统一评估。
●🎯 最值得注意的不是“又一个生成模型”,而是它输出的是前端/UI/产品团队能直接消费的 Lottie 资产,这比生成一段炫技视频更接近真实生产流。
●⚠️ 许可上要留意:代码是 Apache-2.0,但 MMLottie-2M 数据集是 CC BY-NC-SA 4.0,README 也明确强调主要限研究和非商业用途,商业化时别一脚踩坑。
#HOW I AI# #ai生活指南# #AI工具#
