小爱同学 19-11-20 21:26
微博认证:小米智能助手

11月20日,小米语音首席科学家、语音识别开源工具Kaldi的创始人、语音和AI领域大佬 Daniel Povey,出席「 小米AI生态峰会暨小爱同学3.0发布会 」,发表《下一代Kaldi》主题演讲。演讲全文如下:

大家好,今天谈一谈我在小米的计划:创造下一代Kaldi 。

一些人知道Kaldi是一个受欢迎的语音识别工具。它基本上是C++代码和很多脚本构成,脚本调用C++代码。有很多处理实际任务的实例,这也许是他受欢迎的原因。它有很多可以复用的脚本,但是也具有缺点。主要的缺点是难以使用python,没有相应接口。我不想使用Pytorch 或者TensorFlow,我很长时间拒绝使用这两个框架,因为我们有自己的框架,它应该是足够好的。现在我意识到实际上Pytorch和TensorFlow是某种程度上很优美的和强大的,而我们需要使用它们。另外这两者很重要的原因是,Kaldi很难在移动端部署,没有定点化以及一些其他DSP的问题,但TensorFlow有这些特性,Pytorch也将会很快具有。这件事在我脑海里盘旋很久,我知道我必须这么做,但我没有时间来完成,不过现在正是时候。

这就是下一代Kaldi的顶层技术特性,我们将在深度神经网络方面使用pytorch,不过我们将会非常灵活地允许在Pytorch和TensorFlow之间切换。抱歉在座大家不是所有人知道FST (Finite State Transducer)是怎么回事,我们将会把Kaldi的C++代码使用在FST的部分,我们加入了Python接口,你们可以用Python调用FST以及Pytorch。LF-MMI(lattice-free maximum mutual information )是Kaldi的普遍使用的训练方法,我们计划在Pytorch中执行LF-MMI,目前差不多完成了,难点在于使得整个框架简洁高效。

目前只说了代码会发生什么变化。除此外,我们将加强信号层面的数据增广,包括语速、噪音、混响等等,这些会被做成训练的一部分,并将节约存储空间。还将会有很多令人兴奋的事情,我们将在信号层面使用神经网络,比如语音分离。我希望能在信号层面很容易的使用kaldi,美好的事情即将发生!这其中的难点在于我告诉大家6个月会完成,6个月完成需要写很多代码,我不能全部自己搞定,小米给予了预算来招募一个小的优秀团队来与我一起完成,这就是我来小米的原因。

这就是我在小米的计划,我想这就是我的报告。