Simon的白日梦 24-04-13 21:46
微博认证:科技博主

挺有意思的一个提法,抛掉文字的单图片训练的大视觉模型,可以做图片转换(图片标记转完整图像,或者反过来),图片语义理解(具体图像转符号),图像序列帧预测(根据图片上文预测下文);根据另一组图之间的相互关系(例如放大)作为提示来指导当前生成。

Large Vision Models

🧐本网页介绍了一种新颖的序列建模方法,该方法能够在不使用任何语言数据的情况下学习大型视觉模型(Large Vision Model, LVM),通过定义“视觉句子”格式来表示各种视觉数据,有效实现模型的可扩展学习。

➡️链接:http://t.cn/A6TpWJzP

✨重点
●📊 "视觉句子"允许将原始图像、视频及带注释的数据(如语义分割和深度重建)统一格式化为图像序列。
●🔍 该模型处理的视觉数据量达4200亿个标记,对应1.64亿张图片,通过最小化下一个标记的交叉熵损失来进行训练。
●📈 实验结果表明,无论是模型架构还是数据多样性的不同尺度,LVM都表现出良好的可扩展性。
●👁️ LVM在多种下游任务中表现优越,测试结果显示,模型大小越大,其在ImageNet验证集上的困惑度越低,表明了其强大的可扩展能力。
●🔄 除了传统的图像任务,LVM还能通过适当设计的提示(prompt)在测试时解决多种视觉任务,展示了其广泛的应用潜力。

⬆️⬆️如果喜欢我的分享,可以加入我每周更新的AIGC百宝箱——知识星球:AI白日梦想家([抱一抱]可以向我提问,72小时无理由退款,AI信息分类查找),加入方法请见置顶帖图9:http://t.cn/A6jz8QLy(WX扫才能享受6折优惠哦) ,感谢大家打赏支持! [爱你]

发布于 奥地利