Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generatorhttp://t.cn/A6mGVLc0本文提出了一种名为Diptych Prompting的新型零样本方法，用于在无需繁琐微调的情况下生成具有精确主体对齐的图像。该方法通过利用大规模文本到图像模型的二联画生成特性，将图像

Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generatorhttp://t.cn/A6mGVLc0
本文提出了一种名为Diptych Prompting的新型零样本方法，用于在无需繁琐微调的情况下生成具有精确主体对齐的图像。该方法通过利用大规模文本到图像模型的二联画生成特性，将图像生成任务视为一种精确的主体对齐的修复任务。具体而言，Diptych Prompting通过在左侧面板放置参考图像，并在右侧面板上进行基于文本的修复，生成新的主体图像。此外，该方法通过移除参考图像的背景和增强面板间的注意力权重，提高了生成图像的细节质量，防止了不希望的内容泄露。实验结果表明，该方法在零样本图像生成方面优于现有技术，并得到了用户视觉上的青睐。此外，该方法不仅支持主体驱动的图像生成，还能应用于风格化图像生成和主体驱动的图像编辑，展现了在多种图像生成应用中的通用性。#大模型[超话]##每日AI动态##AI[超话]##人工智能[超话]#

发布于北京