薛定谔的英短咕咕咕 26-03-19 00:38
微博认证:数码博主

半夜,小米大模型团队发布小米全模态Agent基座大模型 MiMo-V2-Omni

“MiMo-V2-Omni 专为现实世界中复杂的多模态交互与执行场景而生。从底层构建了融合文本、视觉、语音的全模态基座,并以统一架构将“感知”与“行动”深度绑定。这不仅打破了传统模型“重理解、轻执行”的局限,更让模型原生具备了多模态感知、工具调用、函数执行及 GUI 操作能力。”

“MiMo-V2-Omni 可无缝接入各种 Agent 框架,实现了从理解到操控的跨越,大幅降低了全模态 Agent 的落地门槛。”

“在正式发布之前,我们将一个早期测试版本以「Healer Alpha」为代号匿名上架 OpenRouter,没有任何宣传,纯粹让模型能力说话。结果调用量自然攀升至平台前列,并在 OpenClaw 测评榜单 PinchBench 上拿下均分第一,用户和基准双双给出了同一个答案。”

“我们还与金山办公合作,将 MiMo-V2-Omni 接入 WPS Office,探索全模态智能体模型在日常生产力场景中的表现。”

发布于 广东