#科技[超话]#近日,香港科技大学与上海人工智能实验室联合新加坡国立大学、南洋理工大学发布了EgoTwin。这是一个基于扩散模型的框架,首次实现了第一视角视频与人体动作的联合生成,攻克了视角-动作对齐、因果耦合两大瓶颈,为可穿戴计算、AR及具身智能打开落地新入口
第一视角视频由人体动作驱动,头部运动决定相机位置与朝向,全身动作影响身体姿态与周围场景变化。传统视频生成方法难以适配,面临相机轨迹需与人体动作推导的头部轨迹精准匹配,以及模型需捕捉“观察-动作”闭环依赖中二者随时间的因果关联这两大难题。
传统人体动作表征以身体根部为中心,误差易累计。EgoTwin将动作锚定在头部关节,实现与第一视角观测精准对齐。
借鉴控制论中“观察-动作”反馈循环原理,在注意力机制中加入结构化掩码,实现视频与动作之间的双向因果交互,避免“全局一致但帧级错位”问题,实现细粒度时序同步。
考虑到视频与动作的模态差异,为视频与动作分支分别设置独立采样时间步、添加高斯噪声,再通过统一时间步嵌入融合,适配不同模态的演化节奏。同时采用三阶段训练范式,兼顾效率与性能。
EgoTwin支持根据文字和视频生成动作、根据文字和动作生成视频等多种生成模式。实验证明,其在视频和动作匹配度等方面远超基线模型,镜头和头部的位置误差变小,手部动作在视频里也更容易对应上。#科技改变生活# http://t.cn/AX70bVge
发布于 福建
