小米这个语音模型MiMo-Audio-7B,我没有测过。
但是听好多人说,这个模型很不错。
这个模型只有7B参数,本地是肯定可以跑的。
但是在很多方面超过了谷歌的闭源语音模型 Gemini-2.5-Flash。
在一些比较复杂的场景,也超过了OpenAI 的闭源语音模型 GPT-4o-Audio-Preview。
小米公司对于大模型方面,也是大力投入的。
你们不要以为没有投入。
模型地址:huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct
发布于 江苏
