兄弟们,这个项目夯爆了!
Edit Banana 可以将不可编辑的静态资产(如 PNG,JPG 图片,PDF 文件)转化为完全可编辑的格式(如 DrawIO 的 XML,SVG,PPTX )。
先是使用经过团队微调的 SAM 3 掩码解码器,对图表中的各个元素进行精准分割。
然后用 Qwen-VL 或 GPT-4V 等多模态模型,来指导多轮扫描和内容提取。
数学公式扔给了 Pix2Text 来搞定,也完全没问题。
这回,可真是彻底打破静态格式的束缚了。
传送门:github.com/BIT-DataLab/Edit-Banana
#HOW I AI##科技先锋官##ai开源项目推荐#
发布于 北京
