TalkVid 发布:迄今最大且多元化的音频驱动说话头合成数据集,彻底刷新研究基准。
• 规模宏大:7,729 位不同说话者,累计超 1,244 小时的高清(1080p)及超清(4K)视频素材
• 多语言覆盖:涵盖15种语言,年龄跨度0至60+岁,极大提升跨文化与多年龄段建模能力
• 真实场景采集:全部采集自自然环境,包含头部以上全身上半身视角,远超以往仅头部数据集
• 质量保障:多阶段过滤流程(DOVER视频质量评估、CoTracker运动分析、细节级头部筛选)确保数据精度与完整度
• 丰富标注:高质量字幕及详尽元数据,支持更精准的同步、情绪、身份分析
• 开源友好:CC BY-NC 4.0 许可,配套开源训练与推理代码,支持多GPU、混合精度训练,便于快速复现与拓展
TalkVid 不只是数据集,更是推动说话头生成和多模态合成研究向多语言、多年龄、多视角方向迈进的关键资源。
详见🔗github.com/FreedomIntelligence/TalkVid
论文阅读👉arxiv.org/abs/2508.13618
#说话头合成##多模态AI##计算机视觉##多语言##开源数据集##人工智能#
发布于 北京
