AIGCLINK 26-01-20 16:04
微博认证:AI博主

一款长视频会议纪要、访谈节目精剪、课程速览的AI神器:whisperVideo

除了把语音转文字,它能自动判断说话人,把说话内容对应上画面里的人脸,生成带说话人ID的字幕与可视化面板

就是说把“谁、在什么时间、说了什么”全自动对齐并可视化,对做访谈、电影/纪录片剪辑,或会议纪要回顾等比较实用

对长视频友好,专门用于长视频的,支持小时级素材,自动分场景、分段落处理

视频中同一个说话人可以正确识别,身份一致性保持的比较好

文本转录用的WhisperX,说话人分离用Pyannote,用SAM3做视频中人脸检测与分割
TalkNet做主动说话人检测,然后视觉嵌入

最后把转录的文本、说话人身份、时间戳以及视频画面信息全部整合起来,生成带有说话人ID的字幕和面板视图

github:http://t.cn/AXGRxWnn

#视频转录##whisperVideo# http://t.cn/AXGRxH4t

发布于 山西