豆包agent逻辑解密

没豆包的手机，我也买不起，[二哈]但是看了一下有机器的兄弟的debug信息，基本也解密了豆包agent的逻辑，首先最重要的是“android.permisSiOn.READ FRAME BUFFER”这个权限，这个是读gpu的render buffer，直接读里面的bitmap，所以不需要截图api啥的，来弄或者来考虑此时的机器主屏到底是干啥，而且它执行任务可以在一个virtual screen上执行，也就代表即使你在前台看电影，后台豆包的agent也可以自动完成统计工作或者定时定点给你定外卖，它完全不依赖主屏，不过它这个比较要命的是它在权限上还可以截获不让截图app的权限，比如银行和其他一些账户的私密操作（我是腾讯我也得封禁它，而且估计所有跟支付相关的都得封禁它），刚才说了读，现在是写，它所有的操作都是通过 android.permission.NJECT EVENTS 这个来实现事件驱动的点击，说白了刚才能读的权限可以操作渲染层面的原始图，然后这些在渲染区的图（200-300K左右吧）3-5秒的事件间隔给到豆包本地的进程，发给豆包cloud（ofa.obriccloud.com）上的plan，然后用vl的model来梳理逻辑下发1k左右的指令或者指令序列（open_app,click,swipe之类的），本地进程拿这些东西来用inject events来执行，完成execution，step by step的执行任务（报错，或者human-in-loop估计也有，我没机器我也测试不了，然后"再循环plan-->澄清--->next-execution-->plan "直到本次的所有任务完成）这个设计其实没那么复杂，但是很巧妙，它能实现远比 omini-parse或者什么其他的glm agent这些套路，来的更直接和泛化的操作，也很大胆，在它之前没人敢这么凶得拿权限，还往云上送[晕] #科技先锋官#

发布于北京