爱可可-爱生活
26-05-26 07:56 微博认证:AI博主 2025微博新锐新知博主

美团 LongCat 团队推出「数字人」新利器 —— LongCat-Video-Avatar-1.5!

只需输入音频+文本/图片,就能生成唇同步精准、全身动作自然、支持多人对话的超长视频。升级后的 Whisper-Large 音频编码器让口型更丝滑,8 步蒸馏推理兼顾速度与画质,还能无缝兼容动漫、动物等多风格场景。

GitHub:github.com/meituan-longcat/LongCat-Video
Hugging Face:huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

主要亮点:
Whisper-Large 音频编码,唇同步更自然
生产级稳定:身份一致、全身时序稳定、支持超长视频
动漫/动物/真人多风格泛化
8 步 DMD2 蒸馏,推理极快
单人/多人、AT2V/ATI2V/视频续写全支持
支持 480P/720P,INT8 量化省显存
支持本地快速部署,适合虚拟主播、在线教育、电商带货等场景。

发布于 北京