费了点功夫把视频《关于影视飓风近期舆情》(BV16YC3BrEDz)转成了文字稿。主要是没意识到原视频就有字幕,在加上tim讲话有时候会吞字,所以开始用STT的方式产生了很多识别错误,LLM也不太能救回来(不过大意还是基本准确的)。但我既然要做这个事,还是尽量做靠谱些比较好,于是又找来了一个基于OCR提取字幕的工具。导出的字幕是不带标点符号的,而加标点和分段的任务比较适合LLM来做,所以这个环节就偷懒了。我给LLM强调了不能删字改字,也自己对着文字稿再看了两遍视频,效果还不错。
整理出来的文本我放在了我的memo站点上,就不直接贴微博上了:anyamemo.moe/202511151027 ( http://t.cn/AX2HcULa ),有需要的朋友可以过去复制。
发布于 广东
