i陆三金 25-01-14 14:03
微博认证:AI博主

开源的 computer use agent

该方法使用了三个模型:
Llama-3.2-90B,作为视觉模型;
Llama-3.3-70B,作为工具使用模型;
OS-Atlas-Base-7B,可被 agent 调用以执行点击操作。

该项目并不是跑在终端电脑上的,而是使用云平台 E2B 的桌面沙盒作为虚拟计算机。

原作者表示开发历时一个月,开发过程中的挑战包括:

安全:将操作系统隔离在一个安全、受控的环境中
点击操作:使 AI 能够精确点击以操控 UI 元素
推理:使 AI 能够根据其所见决定下一步该做什么(或何时停止)
部署小众LLMs:以经济高效的方式托管开源模型,特别是 OS-Atlas(编注:这个模型由上海人工智能实验室、上交大、香港大学联合开发)
流式传输显示:寻找一种低延迟的方式来展示和记录沙盒视频

github 页面:http://t.cn/A6uHFqmu
开发过程:http://t.cn/A6uB2Ugr

发布于 北京