ElevenLabs昨晚发布了转录模型:Scribe v2,专用于批量转录、字幕制作场景,WER低
它的一个比较核心的功能Keyterm Prompting,给100个关键词,模型会结合上下文判断什么时候用,而不是硬塞自定义词表
v2在停顿、语调变化、长静音的稳定性上比v1强
对隐私数据(身份信息/银行卡/病历等56类)能自动高亮并附带时间戳,可便于后续打码脱敏
多种语言混合能智能转写,支持说话人分离等
另外,Scribe v2 Realtime对延迟做了优化
文档: http://t.cn/AXbnxgtr
#语音转录##Scribev2#
发布于 山西
