手机端智能体评测基准上线

新一代手机端智能体评测基准：MobileWorld上线！

通义实验室发布MobileWorld —— 专为真实用户需求设计的手机智能体评测基准。
当前主流基准（如 AndroidWorld）任务复杂度低、场景覆盖有限，无法反映用户的复杂需求。为此，MobileWorld从用户真实使用出发，带来五大升级：
更长任务链：平均 27.8 步（AndroidWorld 仅 14.3 步）
更多跨 App 场景：62.2% 任务需协同多个 App（AndroidWorld 仅 9.5%）
支持模糊指令澄清：要求智能体主动询问关键信息（主流模型准确率 <10%）
支持工具+界面混合操作：如查论文 + 下单 + 发通知（主流模型准确率 ≈0%）
全栈开源 + 一键复现：自托管 App + Docker + AVD 快照，公平可测

当前最优模型在 MobileWorld 上成功率仅 51.7%，端到端方案最高仅 20.9%。
👉 目前MobileWorld已开源，欢迎全球发开者体验、测试、共建。

发布于泰国