费了点功夫把视频《关于影视飓风近期舆情》(BV16YC3BrEDz)转成了文字稿。主要是没意识到原视频就有字幕，在加上tim讲话有时候会吞字，所以开始用STT的方式产生了很多识别错误，LLM也不太能救回来(不过大意还是基本准确的)。但我既然要做这个事，还是尽量做靠谱些比较好，于是又找来了一个基于OCR提取字

费了点功夫把视频《关于影视飓风近期舆情》(BV16YC3BrEDz)转成了文字稿。主要是没意识到原视频就有字幕，在加上tim讲话有时候会吞字，所以开始用STT的方式产生了很多识别错误，LLM也不太能救回来(不过大意还是基本准确的)。但我既然要做这个事，还是尽量做靠谱些比较好，于是又找来了一个基于OCR提取字幕的工具。导出的字幕是不带标点符号的，而加标点和分段的任务比较适合LLM来做，所以这个环节就偷懒了。我给LLM强调了不能删字改字，也自己对着文字稿再看了两遍视频，效果还不错。

整理出来的文本我放在了我的memo站点上，就不直接贴微博上了：anyamemo.moe/202511151027 ( http://t.cn/AX2HcULa )，有需要的朋友可以过去复制。

发布于广东