捏粘液球那个动作看呆我，这跟实拍有什么区别！Meta发布VideoJAM：让AI视频生成告别"动作僵硬"，有点东西！技术痛点：当前视频生成模型普遍存在"动作失真"问题——虽然画面精美，但人物动作常出现不连贯、反物理现象。其根源在于传统方法过度关注"像素级还原"，忽视了动态过程的时空一致性。Meta的

捏粘液球那个动作看呆我，这跟实拍有什么区别！Meta发布VideoJAM：让AI视频生成告别"动作僵硬"，有点东西！
技术痛点：
当前视频生成模型普遍存在"动作失真"问题——虽然画面精美，但人物动作常出现不连贯、反物理现象。其根源在于传统方法过度关注"像素级还原"，忽视了动态过程的时空一致性。
Meta的破局方案：
研究团队创新提出VideoJAM框架，首次实现外观与运动的联合建模。两大核心技术革新：
1、双目标训练机制：同步优化像素重建+运动轨迹预测，让AI真正理解"动作逻辑"
2、动态引导算法：推理时通过自生成运动轨迹反向优化画面，形成闭环修正系统
技术优势：
1、即插即用：适配所有主流视频生成架构（如DiT），无需额外数据/算力
2、双效提升：在保持画质的同时，运动连贯性提升超30%
3、物理仿真：成功复现滑板腾空、水面旋转等复杂动力学场景
性能验证：
对比当前最强开源模型之一DiT-30B：
1、在包含2000+复杂动作的测试集上，运动自然度得分提升41%
2、专业动画师盲测显示，视频可信度达人类作品水平的78%
3、在TikTok等平台用户调研中，生成视频的观看时长提升2.3倍
行业影响：
这项突破有望解决长期困扰业界的"AI动作僵硬"难题，更为虚拟现实、影视特效、自动驾驶仿真等领域带来新的技术范式。当AI真正理解"运动逻辑"，数字内容创作将迎来极大飞跃！
#ai创造营# http://t.cn/A617Rqsk

发布于广东