视频转文本方法及问题探讨

同样是视频转文本，如果视频本身就内嵌字幕，那可以用OCR来做，但这样可能会忽略掉实际口语与内嵌字幕之间的差异。虽说大部分时候只是去掉一些口水话，但会不会有视频的字幕和“说”出来的有着不一样的意思。

没有内嵌字幕那就从音频去转录。但转录会有一个准确度的问题，可能是词句识别错了，可能是遗漏。太“准确”的话可能是口水话逐字体现在输出的文本中。

不管是哪条路径都免不了人工重新校对。

发布于广东