阿里开源MAI-UI模型

阿里刚刚开源了通用GUI智能体基座模型：MAI-UI，其32B的GUI视觉定位能力在ScreenSpot-Pro上超Gemini-3-Pro

MAI-UI首次将用户交互、 MCP、端云协同三个能力原生集成于统一架构中

在办公、生活、出行、购物等高频场景中的任务自动化能力较强

MAI-UI原生具备用户交互能力，就是说当指令不完整或表达模糊时会主动提问，通过与用户交互先行澄清关键信息、拒绝臆断，并将澄清信息纳入任务记忆，确保执行路径始终与用户的真实意图对齐

比如说，“下载简历并发送给同事”
MAI-UI会在发送前主动询问，“应该以附件形式发送，还是复制文本内容？”

原生集成MCP工具调用，跳过冗长UI操作

原生端云协同，保障隐私+性能，用2B小模型常驻手机，日常操作本地搞定，卡壳且无敏感信息时就扔给云端32B

具备抗干扰能力，针对真实移动环境中可能出现的弹窗、网络延迟、UI变化等复杂情况，MAI-UI可以适应和自我纠正，以确保任务的稳定性和连贯性

目前2B和8B已开源

github：http://t.cn/AX4WOzCF

#MAIUI##GUIAgent##手机智能体#

发布于山西