今天百度文心开源了ERNIE-Image,一个8B参数的文生图模型,
我自己也实测了下效果,在我看来,ERNIE-Image的精准度和中文语义理解表现出色,复杂长文本不易出错,1024x1024分辨率下文字依然精准。这是最大的优点。
整理下来,这次核心亮点包括:
1.消费级显卡能跑:24GB显存就能生成顶级质量图像
2.文字渲染开源第一:中英日韩多语言字形清晰,海报排版、漫画分镜都不在话下
3.以小博大:8B参数在多项benchmark上超越同类开源模型,媲美NanoBanana等商用模型
4.已经上线ComfyUI,Hugging Face全开源,Apache 2.0协议
独立开发者、小团队多了一个真正能本地部署、不卡顿、效果好的文生图选择了。
技术细节:单流Diffusion Transformer架构 + 轻量级Prompt Enhancer,在GenEval、LongText-Bench等国际基准上表现领先。
体验地址: http://t.cn/AXMmNgLT
#百度文心##ERENIE-IMAGE#
发布于 福建
