通义大模型 25-12-30 22:04
微博认证:通义大模型官方微博

新一代手机端智能体评测基准:MobileWorld上线!

通义实验室发布MobileWorld —— 专为真实用户需求设计的手机智能体评测基准。
当前主流基准(如 AndroidWorld)任务复杂度低、场景覆盖有限,无法反映用户的复杂需求。为此,MobileWorld从用户真实使用出发,带来五大升级:
更长任务链:平均 27.8 步(AndroidWorld 仅 14.3 步)
更多跨 App 场景:62.2% 任务需协同多个 App(AndroidWorld 仅 9.5%)
支持模糊指令澄清:要求智能体主动询问关键信息(主流模型准确率 <10%)
支持工具+界面混合操作:如查论文 + 下单 + 发通知(主流模型准确率 ≈0%)
全栈开源 + 一键复现:自托管 App + Docker + AVD 快照,公平可测

当前最优模型在 MobileWorld 上成功率仅 51.7%,端到端方案最高仅 20.9%。
👉 目前MobileWorld已开源,欢迎全球发开者体验、测试、共建。

发布于 泰国