爱可可-爱生活
25-07-31 13:54 微博认证:AI博主 2025微博新锐新知博主

GPT-IMAGE-EDIT-1.5M:首个公开的百万规模、高质量GPT生成图像编辑数据集,助力开放图像编辑研究
• 1.5M条编辑三元组(编辑指令、原图、编辑后图),基于GPT-4o能力统一并优化OmniEdit、HQ-Edit、UltraEdit三大数据集。
• 通过重生成图像提升视觉质量与指令对齐度,重写提示词增强语义清晰度,实现训练数据质量飞跃。
• 开源全套:数据集、模型权重、训练代码、评估代码,基于UniWorld-V1框架,推动社区协作与创新。
• 训练细节:支持Qwen2.5-VL-7B-Instruct及FluxKontext等权重,分阶段训练策略,适配512×512和1024×1024分辨率,优化显存使用。
• 丰富评测:GEdit-EN、ImgEdit-Full、Complex-Edit多项benchmark表现领先开放模型,FluxKontext微调版本综合得分7.24、3.80、8.78,显著逼近商业闭源最优。
• 实用性强:提供命令行与Gradio Web界面示例,快速上手体验模型编辑功能。
• 许可:FLUX Kontext权重采用非商业许可,详细见LICENSE文件。
• 论文链接🔗 arxiv.org/abs/2507.21033
开源地址👉 github.com/wyhlovecpp/GPT-Image-Edit
#图像编辑# #多模态AI# #开源数据集# #GPT4o# #计算机视觉# #深度学习#

发布于 北京