Transformer-周 25-12-11 21:49
微博认证:AI博主

没豆包的手机,我也买不起,[二哈]但是看了一下有机器的兄弟的debug信息,基本也解密了豆包agent的逻辑,首先最重要的是“android.permisSiOn.READ FRAME BUFFER”这个权限,这个是读gpu的render buffer,直接读里面的bitmap,所以不需要截图api啥的,来弄或者来考虑此时的机器主屏到底是干啥,而且它执行任务可以在一个virtual screen上执行,也就代表即使你在前台看电影,后台豆包的agent也可以自动完成统计工作或者定时定点给你定外卖,它完全不依赖主屏,不过它这个比较要命的是它在权限上还可以截获不让截图app的权限,比如银行和其他一些账户的私密操作(我是腾讯我也得封禁它,而且估计所有跟支付相关的都得封禁它),刚才说了读,现在是写,它所有的操作都是通过 android.permission.NJECT EVENTS 这个来实现事件驱动的点击,说白了刚才能读的权限可以操作渲染层面的原始图,然后这些在渲染区的图(200-300K左右吧)3-5秒的事件间隔给到豆包本地的进程,发给豆包cloud(ofa.obriccloud.com)上的plan,然后用vl的model来梳理逻辑下发1k左右的指令或者指令序列(open_app,click,swipe之类的),本地进程拿这些东西来用inject events来执行,完成execution,step by step的执行任务(报错,或者human-in-loop估计也有,我没机器我也测试不了,然后"再循环plan-->澄清--->next-execution-->plan "直到本次的所有任务完成)这个设计其实没那么复杂,但是很巧妙,它能实现远比 omini-parse或者什么其他的glm agent这些套路,来的更直接和泛化的操作,也很大胆,在它之前没人敢这么凶得拿权限,还往云上送[晕] #科技先锋官#

发布于 北京