宝玉xp 24-08-21 10:47
微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

最近我试用了一下飞书的妙记来帮我生成视频字幕和翻译字幕,效果挺不错的,能比较快的识别中文和英文(还有其他语言的支持,不过没一一测试),能识别发言人,对一些口音比较重的中式英语印式英语都能识别的很不错。

我日常翻译字幕时需要手动做的一些事情可以自动化了:
- 识别发言人,可以直接准确标记出发言人
- 自动生成章节
- 按照章节或者选中的字幕导出视频剪辑
- 直接生成视频摘要

当然还有一些我用不上的可能对有些人实用的功能,比如将视频或者会议内容转成待办事项。

另外查了一下他们用的模型是豆包的Seed-ASR模型,根据他们论文 http://t.cn/A6RLbjxA 上的描述:
> Seed-ASR是豆包大模型团队近期公开的ASR(自动语音识别)成果。它能准确转录各种语音信号,识别不同语言、方言、口音。即便多数人听不明白的孩童咿呀学语,它也能精确识别。对于人名、生词,Seed-ASR也能结合文本语音等上下文,实现更准确的转录。该成果目前已被集成进豆包APP、飞书中。

妙记官网:http://t.cn/A6RLGAok
这是一个分享的飞书视频示例:http://t.cn/A6RZ8eex

发布于 美国