AI-GitHub 25-04-28 14:23
微博认证:科技博主

音频 AI 的 “六边形战士” 降临!Kimi-Audio开源发布!

Moonshot AI正式发布开源音频基础模型Kimi-Audio!这款以7B参数量为核心的通用模型,凭借1300万小时超大规模音频训练、混合架构设计与多项SOTA性能,彻底颠覆了传统音频处理的技术边界!

从语音识别到情感分析,从多轮对话到音频生成,Kimi-Audio以“六边形战士”的姿态横扫十多项基准测试,总体性能稳居第一,被业界誉为“开源音频领域的GPT-4时刻”

性能封神:碾压开源,逼近闭源
- 语音识别:LibriSpeech词错率1.28%,较第二名降低30%;
- 情感分析:MELD任务得分59.13,超越GPT-4o-mini;
- 声音分类:VocalSound准确率94.85%,接近理论满分;
- 多任务雷达图:在ASR、AQA、TTS等任务中,Kimi-Audio(紫线)覆盖面积远超Qwen、Baichuan等竞品。

#AI视频生成##ai开源项目##AI音频##月之暗面#

发布于 重庆