开源的 computer use agent
该方法使用了三个模型:
Llama-3.2-90B,作为视觉模型;
Llama-3.3-70B,作为工具使用模型;
OS-Atlas-Base-7B,可被 agent 调用以执行点击操作。
该项目并不是跑在终端电脑上的,而是使用云平台 E2B 的桌面沙盒作为虚拟计算机。
原作者表示开发历时一个月,开发过程中的挑战包括:
安全:将操作系统隔离在一个安全、受控的环境中
点击操作:使 AI 能够精确点击以操控 UI 元素
推理:使 AI 能够根据其所见决定下一步该做什么(或何时停止)
部署小众LLMs:以经济高效的方式托管开源模型,特别是 OS-Atlas(编注:这个模型由上海人工智能实验室、上交大、香港大学联合开发)
流式传输显示:寻找一种低延迟的方式来展示和记录沙盒视频
github 页面:http://t.cn/A6uHFqmu
开发过程:http://t.cn/A6uB2Ugr
发布于 北京
