方言语音模型升级

敢用家乡话测试这个AI吗？结果惊人

通义实验室在4月20日正式推出了Fun-ASR 1.5，其定位是首个实现方言工业级可用的语音模型。

该模型基于统一架构，单模型即可覆盖30种语言、七大汉语方言体系及20+地方口音，在典型方言场景下字错误率（CER）相对下降56.2%，已有5种方言准确率突破90%，15种超过80%。

这不只是一次版本的升级，更是整个AI语音行业的分水岭啊。以前ASR在普通话和英文的识别上基本稳定了，但一进入方言场景，识别效果就会大大下降，甚至部分不可用。

Fun-ASR 1.5的核心突破，就在于把这块最难啃的骨头给啃下来了。它通过十万小时真实方言数据训练，不仅语种覆盖广，还把精度拉到了可商用水平。让方言识别第1次具备了进入业务系统的能力。

同时，它还有一个很实用的点，一个模型就能支持30种语言，还能处理中英混说等真实复杂对话场景。这对B端来说意义重大。比如做客服系统的公司，不用再区分普通话客服和粤语客服，一套模型就能覆盖。做会议记录的工具，可以直接处理夹杂方言的真实对话。做短视频或纪录片的团队，地方方言内容可以直接转字幕，不用再人工一句句校对。这些都是以前做不到，或者成本很高的事。

Fun-ASR 1.5这次突破的难点还有方言本身的壁垒。它的数据很难搞，每个地方都不一样，但需求又真实存在。像是基层服务、客服、教育这些场景，看起来需求不大，但数量很多，加起来其实是个很大的市场。这些都是多语种混合高频场景，其价值很高，一旦打通就很难被替代。

从竞争格局看，当大多数模型还停留在只听得懂普通话时，Fun-ASR在苏州话、闽南话等稀缺方言上已经实现断层领先！这种领先，不是简单的精度优势，而是能力边界的扩展，从标准语言，走向真实语言。

可以说，语音识别正在进入不再只是转写工具，而是开始成为企业系统中的底层沟通能力的新阶段。随着方言这类真实场景被逐步实现，B端的应用空间也会被进一步打开，AI开始真正接管更底层的交流环节。

#通义实验室 #语音模型 #语音识别 #千问大模型 #ai语音 #通义 #Fun-ASR1.5 #AI #大模型 #阿里大模型 #阿里 #语音识别大模型#人工智能[超话]#

发布于浙江