AI神器whisperVideo发布

一款长视频会议纪要、访谈节目精剪、课程速览的AI神器：whisperVideo

除了把语音转文字，它能自动判断说话人，把说话内容对应上画面里的人脸，生成带说话人ID的字幕与可视化面板

就是说把“谁、在什么时间、说了什么”全自动对齐并可视化，对做访谈、电影/纪录片剪辑，或会议纪要回顾等比较实用

对长视频友好，专门用于长视频的，支持小时级素材，自动分场景、分段落处理

视频中同一个说话人可以正确识别，身份一致性保持的比较好

文本转录用的WhisperX，说话人分离用Pyannote，用SAM3做视频中人脸检测与分割
TalkNet做主动说话人检测，然后视觉嵌入

最后把转录的文本、说话人身份、时间戳以及视频画面信息全部整合起来，生成带有说话人ID的字幕和面板视图

github：http://t.cn/AXGRxWnn

#视频转录##whisperVideo# http://t.cn/AXGRxH4t

发布于山西