音频 AI 的 “六边形战士” 降临!Kimi-Audio开源发布!
Moonshot AI正式发布开源音频基础模型Kimi-Audio!这款以7B参数量为核心的通用模型,凭借1300万小时超大规模音频训练、混合架构设计与多项SOTA性能,彻底颠覆了传统音频处理的技术边界!
从语音识别到情感分析,从多轮对话到音频生成,Kimi-Audio以“六边形战士”的姿态横扫十多项基准测试,总体性能稳居第一,被业界誉为“开源音频领域的GPT-4时刻”
性能封神:碾压开源,逼近闭源
- 语音识别:LibriSpeech词错率1.28%,较第二名降低30%;
- 情感分析:MELD任务得分59.13,超越GPT-4o-mini;
- 声音分类:VocalSound准确率94.85%,接近理论满分;
- 多任务雷达图:在ASR、AQA、TTS等任务中,Kimi-Audio(紫线)覆盖面积远超Qwen、Baichuan等竞品。
#AI视频生成##ai开源项目##AI音频##月之暗面#
发布于 重庆
