爱可可-爱生活 25-09-20 13:03
微博认证:AI博主 2025微博新锐新知博主

MiMo-Audio-Eval:面向音频语言模型的综合评测工具包,专注于预训练与监督微调(SFT)模型的多任务、多数据集性能评估。

• 支持丰富数据集:AISHELL1、LibriSpeech、SeedTTS、SpeechMMLU、Big Bench Audio等,覆盖多样音频场景。
• 多场景任务覆盖:预训练阶段的ICL知识与音频理解评测,语音识别(ASR)、文本转语音(TTS/InstructTTS)、音频理解与推理、口语对话等多维度考核。
• 支持主流音频模型:MiMo-Audio、Step-Audio2、Kimi-Audio、Baichuan-Audio、Qwen-Omni,助力多模态音频AI研究。
• 灵活扩展:开源框架,便于集成自定义模型及新增评测脚本,助力科研复现和对比。
• 快速上手:一步克隆仓库,配置依赖,提供实用评测脚本,方便复现论文结果和开展性能对比。
• 结合OpenAI API,支持最新音频任务的在线评测,紧跟前沿研究动态。

MiMo-Audio-Eval 让音频语言模型的性能评测更全面、更高效,适合研究机构和开发团队深化模型能力边界。

🔗 github.com/XiaomiMiMo/MiMo-Audio-Eval

#音频语言模型# #语音识别# #文本转语音# #AI评测工具# #开源项目#

发布于 北京