开源的 computer use agent该方法使用了三个模型：Llama-3.2-90B，作为视觉模型；Llama-3.3-70B，作为工具使用模型；OS-Atlas-Base-7B，可被 agent 调用以执行点击操作。该项目并不是跑在终端电脑上的，而是使用云平台 E2B 的桌面沙盒作为虚拟计算机。原作者表示开发历时一个月，开发过程中的

开源的 computer use agent

该方法使用了三个模型：
Llama-3.2-90B，作为视觉模型；
Llama-3.3-70B，作为工具使用模型；
OS-Atlas-Base-7B，可被 agent 调用以执行点击操作。

该项目并不是跑在终端电脑上的，而是使用云平台 E2B 的桌面沙盒作为虚拟计算机。

原作者表示开发历时一个月，开发过程中的挑战包括：

安全：将操作系统隔离在一个安全、受控的环境中
点击操作：使 AI 能够精确点击以操控 UI 元素
推理：使 AI 能够根据其所见决定下一步该做什么（或何时停止）
部署小众LLMs：以经济高效的方式托管开源模型，特别是 OS-Atlas（编注：这个模型由上海人工智能实验室、上交大、香港大学联合开发）
流式传输显示：寻找一种低延迟的方式来展示和记录沙盒视频

github 页面：http://t.cn/A6uHFqmu
开发过程：http://t.cn/A6uB2Ugr

发布于北京