哥伦比亚大学工程学院的 Creative Machines Lab近期发布了名为 EMO的机器人,摆脱了传统的“人工编程指令”,转而通过自主学习来掌握复杂的面部表情和口型同步。
机器人的学习过程分为两个阶段,模仿了人类婴儿的发育过程:
第一步:对着镜子“练脸”。机器人被安置在镜子前,随机驱动其面部 26 个执行器(肌肉电机)。通过摄像头捕捉自己的反射画面,逐渐理解了“某种电机指令”会对应“某种面部形状”。研究人员称为 “视觉到动作”语言模型 (Vision-to-Action Language Model)。
第二步:观看 YouTube 视频。在掌握了如何控制自己的“肌肉”后,开始观看长达数小时的 YouTube 视频,学习人类说话和唱歌时的口型规律。通过比对音频频率与视觉口型,学会了预测在发出特定声音时,嘴唇应如何运动。
由于基于声音频率而非语法进行学习的,EMO 能够为它从未“学过”的语言(如法语、韩语、阿拉伯语)进行即时对口型,甚至能跟随 AI 生成的音乐专辑《hello world_》进行演唱。
为海外华人提供有价值的信息与分析,更多内容和全文可在蓝天、电报、x查找causmoney,或直接谷歌搜索caus.com http://t.cn/AXqmJZMm
发布于 加拿大
