TalkVid 发布：迄今最大且多元化的音频驱动说话头合成数据集，彻底刷新研究基准。• 规模宏大：7,729 位不同说话者，累计超 1,244 小时的高清（1080p）及超清（4K）视频素材 • 多语言覆盖：涵盖15种语言，年龄跨度0至60+岁，极大提升跨文化与多年龄段建模能力 • 真实场景采集：全部采集自自然

TalkVid 发布：迄今最大且多元化的音频驱动说话头合成数据集，彻底刷新研究基准。

• 规模宏大：7,729 位不同说话者，累计超 1,244 小时的高清（1080p）及超清（4K）视频素材
• 多语言覆盖：涵盖15种语言，年龄跨度0至60+岁，极大提升跨文化与多年龄段建模能力
• 真实场景采集：全部采集自自然环境，包含头部以上全身上半身视角，远超以往仅头部数据集
• 质量保障：多阶段过滤流程（DOVER视频质量评估、CoTracker运动分析、细节级头部筛选）确保数据精度与完整度
• 丰富标注：高质量字幕及详尽元数据，支持更精准的同步、情绪、身份分析
• 开源友好：CC BY-NC 4.0 许可，配套开源训练与推理代码，支持多GPU、混合精度训练，便于快速复现与拓展

TalkVid 不只是数据集，更是推动说话头生成和多模态合成研究向多语言、多年龄、多视角方向迈进的关键资源。
详见🔗github.com/FreedomIntelligence/TalkVid
论文阅读👉arxiv.org/abs/2508.13618

#说话头合成##多模态AI##计算机视觉##多语言##开源数据集##人工智能#

发布于北京