欧巴聊AI 26-03-09 00:19
微博认证:AI博主

兄弟们,这个项目夯爆了!

Edit Banana 可以将不可编辑的静态资产(如 PNG,JPG 图片,PDF 文件)转化为完全可编辑的格式(如 DrawIO 的 XML,SVG,PPTX )。

先是使用经过团队微调的 SAM 3 掩码解码器,对图表中的各个元素进行精准分割。

然后用 Qwen-VL 或 GPT-4V 等多模态模型,来指导多轮扫描和内容提取。

数学公式扔给了 Pix2Text 来搞定,也完全没问题。

这回,可真是彻底打破静态格式的束缚了。

传送门:github.com/BIT-DataLab/Edit-Banana

#HOW I AI##科技先锋官##ai开源项目推荐#

发布于 北京