阿里刚刚开源了通用GUI智能体基座模型:MAI-UI,其32B的GUI视觉定位能力在ScreenSpot-Pro上超Gemini-3-Pro
MAI-UI首次将用户交互、 MCP、端云协同三个能力原生集成于统一架构中
在办公、生活、出行、购物等高频场景中的任务自动化能力较强
MAI-UI原生具备用户交互能力,就是说当指令不完整或表达模糊时会主动提问,通过与用户交互先行澄清关键信息、拒绝臆断,并将澄清信息纳入任务记忆,确保执行路径始终与用户的真实意图对齐
比如说,“下载简历并发送给同事”
MAI-UI会在发送前主动询问,“应该以附件形式发送,还是复制文本内容?”
原生集成MCP工具调用,跳过冗长UI操作
原生端云协同,保障隐私+性能,用2B小模型常驻手机,日常操作本地搞定,卡壳且无敏感信息时就扔给云端32B
具备抗干扰能力,针对真实移动环境中可能出现的弹窗、网络延迟、UI变化等复杂情况,MAI-UI可以适应和自我纠正,以确保任务的稳定性和连贯性
目前2B和8B已开源
github:http://t.cn/AX4WOzCF
#MAIUI##GUIAgent##手机智能体#
发布于 山西
