Barret李靖 23-11-28 11:21
微博认证:阿里巴巴职员 科技博主 头条文章作者

self-operating-computer,h++ps://github.com/OthersideAI/self-operating-computer,这个项目演示了如何让 GPT-4V 来控制自己的电脑,你需要做的就是告诉它完成一个怎样的任务,例如,打开 Google Docs 写一篇文章,然后发布并分享给同事。

它的 Prompt 写的比较简单,定义了一个可以与机器交互的 DSL,主要包含三种动作:Click/Type/Search,分别对应 mouse_click/keyboard_type/mac_search 几个封装好的系统函数。

每次程序执行动作时,都会携带任务目标、上一步执行结果以及当前屏幕截图作为上下文,然后将信息传递给 ChatGPT,并让它给出下一步操作指示。

这个项目中 Prompt 的定制化程度偏高,说明完成复杂的工作还比较有挑战,如果参考之前提到的 Mutil-Agent 方案,http://t.cn/A6WF0nCt,做出来效果应该会更好一些。#AI学习#

发布于 浙江