11月20日，小米语音首席科学家、语音识别开源工具Kaldi的创始人、语音和AI领域大佬 Daniel Povey，出席「小米AI生态峰会暨小爱同学3.0发布会」，发表《下一代Kaldi》主题演讲。演讲全文如下：大家好，今天谈一谈我在小米的计划：创造下一代Kaldi 。一些人知道Kaldi是一个受欢迎的语音识别工具。

11月20日，小米语音首席科学家、语音识别开源工具Kaldi的创始人、语音和AI领域大佬 Daniel Povey，出席「小米AI生态峰会暨小爱同学3.0发布会」，发表《下一代Kaldi》主题演讲。演讲全文如下：

大家好，今天谈一谈我在小米的计划：创造下一代Kaldi 。

一些人知道Kaldi是一个受欢迎的语音识别工具。它基本上是C++代码和很多脚本构成，脚本调用C++代码。有很多处理实际任务的实例，这也许是他受欢迎的原因。它有很多可以复用的脚本，但是也具有缺点。主要的缺点是难以使用python，没有相应接口。我不想使用Pytorch 或者TensorFlow，我很长时间拒绝使用这两个框架，因为我们有自己的框架，它应该是足够好的。现在我意识到实际上Pytorch和TensorFlow是某种程度上很优美的和强大的，而我们需要使用它们。另外这两者很重要的原因是，Kaldi很难在移动端部署，没有定点化以及一些其他DSP的问题，但TensorFlow有这些特性，Pytorch也将会很快具有。这件事在我脑海里盘旋很久，我知道我必须这么做，但我没有时间来完成，不过现在正是时候。

这就是下一代Kaldi的顶层技术特性，我们将在深度神经网络方面使用pytorch，不过我们将会非常灵活地允许在Pytorch和TensorFlow之间切换。抱歉在座大家不是所有人知道FST (Finite State Transducer)是怎么回事，我们将会把Kaldi的C++代码使用在FST的部分，我们加入了Python接口，你们可以用Python调用FST以及Pytorch。LF-MMI（lattice-free maximum mutual information ）是Kaldi的普遍使用的训练方法，我们计划在Pytorch中执行LF-MMI，目前差不多完成了，难点在于使得整个框架简洁高效。

目前只说了代码会发生什么变化。除此外，我们将加强信号层面的数据增广，包括语速、噪音、混响等等，这些会被做成训练的一部分，并将节约存储空间。还将会有很多令人兴奋的事情，我们将在信号层面使用神经网络，比如语音分离。我希望能在信号层面很容易的使用kaldi，美好的事情即将发生！这其中的难点在于我告诉大家6个月会完成，6个月完成需要写很多代码，我不能全部自己搞定，小米给予了预算来招募一个小的优秀团队来与我一起完成，这就是我来小米的原因。

这就是我在小米的计划，我想这就是我的报告。