AIGCLINK 25-12-29 14:06
微博认证:AI博主

阿里刚刚开源了通用GUI智能体基座模型:MAI-UI,其32B的GUI视觉定位能力在ScreenSpot-Pro上超Gemini-3-Pro

MAI-UI首次将用户交互、 MCP、端云协同三个能力原生集成于统一架构中

在办公、生活、出行、购物等高频场景中的任务自动化能力较强

MAI-UI原生具备用户交互能力,就是说当指令不完整或表达模糊时会主动提问,通过与用户交互先行澄清关键信息、拒绝臆断,并将澄清信息纳入任务记忆,确保执行路径始终与用户的真实意图对齐

比如说,“下载简历并发送给同事”
MAI-UI会在发送前主动询问,“应该以附件形式发送,还是复制文本内容?”

原生集成MCP工具调用,跳过冗长UI操作

原生端云协同,保障隐私+性能,用2B小模型常驻手机,日常操作本地搞定,卡壳且无敏感信息时就扔给云端32B

具备抗干扰能力,针对真实移动环境中可能出现的弹窗、网络延迟、UI变化等复杂情况,MAI-UI可以适应和自我纠正,以确保任务的稳定性和连贯性

目前2B和8B已开源

github:http://t.cn/AX4WOzCF

#MAIUI##GUIAgent##手机智能体#

发布于 山西