港科大联合发布EgoTwin框架

#科技[超话]#近日，香港科技大学与上海人工智能实验室联合新加坡国立大学、南洋理工大学发布了EgoTwin。这是一个基于扩散模型的框架，首次实现了第一视角视频与人体动作的联合生成，攻克了视角-动作对齐、因果耦合两大瓶颈，为可穿戴计算、AR及具身智能打开落地新入口
第一视角视频由人体动作驱动，头部运动决定相机位置与朝向，全身动作影响身体姿态与周围场景变化。传统视频生成方法难以适配，面临相机轨迹需与人体动作推导的头部轨迹精准匹配，以及模型需捕捉“观察-动作”闭环依赖中二者随时间的因果关联这两大难题。
传统人体动作表征以身体根部为中心，误差易累计。EgoTwin将动作锚定在头部关节，实现与第一视角观测精准对齐。
借鉴控制论中“观察-动作”反馈循环原理，在注意力机制中加入结构化掩码，实现视频与动作之间的双向因果交互，避免“全局一致但帧级错位”问题，实现细粒度时序同步。
考虑到视频与动作的模态差异，为视频与动作分支分别设置独立采样时间步、添加高斯噪声，再通过统一时间步嵌入融合，适配不同模态的演化节奏。同时采用三阶段训练范式，兼顾效率与性能。
EgoTwin支持根据文字和视频生成动作、根据文字和动作生成视频等多种生成模式。实验证明，其在视频和动作匹配度等方面远超基线模型，镜头和头部的位置误差变小，手部动作在视频里也更容易对应上。#科技改变生活# http://t.cn/AX70bVge

发布于福建