学长看科技 26-05-13 16:39
微博认证:联合国青年代表 教育博主

敢用家乡话测试这个AI吗?结果惊人

通义实验室在4月20日正式推出了Fun-ASR 1.5,其定位是首个实现方言工业级可用的语音模型。

该模型基于统一架构,单模型即可覆盖30种语言、七大汉语方言体系及20+地方口音,在典型方言场景下字错误率(CER)相对下降56.2%,已有5种方言准确率突破90%,15种超过80%。

这不只是一次版本的升级,更是整个AI语音行业的分水岭啊。以前ASR在普通话和英文的识别上基本稳定了,但一进入方言场景,识别效果就会大大下降,甚至部分不可用。

Fun-ASR 1.5的核心突破,就在于把这块最难啃的骨头给啃下来了。它通过十万小时真实方言数据训练,不仅语种覆盖广,还把精度拉到了可商用水平。让方言识别第1次具备了进入业务系统的能力。

同时,它还有一个很实用的点,一个模型就能支持30种语言,还能处理中英混说等真实复杂对话场景。这对B端来说意义重大。比如做客服系统的公司,不用再区分普通话客服和粤语客服,一套模型就能覆盖。做会议记录的工具,可以直接处理夹杂方言的真实对话。做短视频或纪录片的团队,地方方言内容可以直接转字幕,不用再人工一句句校对。这些都是以前做不到,或者成本很高的事。

Fun-ASR 1.5这次突破的难点还有方言本身的壁垒。它的数据很难搞,每个地方都不一样,但需求又真实存在。像是基层服务、客服、教育这些场景,看起来需求不大,但数量很多,加起来其实是个很大的市场。这些都是多语种混合高频场景,其价值很高,一旦打通就很难被替代。

从竞争格局看,当大多数模型还停留在只听得懂普通话时,Fun-ASR在苏州话、闽南话等稀缺方言上已经实现断层领先!这种领先,不是简单的精度优势,而是能力边界的扩展,从标准语言,走向真实语言。

可以说,语音识别正在进入不再只是转写工具,而是开始成为企业系统中的底层沟通能力的新阶段。随着方言这类真实场景被逐步实现,B端的应用空间也会被进一步打开,AI开始真正接管更底层的交流环节。

#通义实验室 #语音模型 #语音识别 #千问大模型 #ai语音 #通义 #Fun-ASR1.5 #AI #大模型 #阿里大模型 #阿里 #语音识别大模型#人工智能[超话]#

发布于 浙江