StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners http://t.cn/A6pGGO1n
ChatPaper综述:文章说明了使用文本到图像模型生成的合成图像进行视觉表示学习的潜力,并提出了一种名为StableRep的多正对比学习方法。使用合成图像进行自监督学习可以达到与真实图像相似或更好的性能,而使用StableRep方法学习的表征在大规模数据集上可以超越使用相同文本提示和真实图像进行训练的SimCLR和CLIP学习的表征。同时,当添加语言监督时,使用20M合成图像训练的StableRep在准确性上优于使用50M真实图像训练的CLIP。
#论文[超话]##每日热点论文推荐##人工智能[超话]##大模型##ChatGPT[超话]##机器学习[超话]#
发布于 北京
