摇摆时间线ZHLMI 25-12-07 15:23
微博认证:上海慧龙计算机系统有限公司多媒体经理

社区开源模型研究团队NewBieAI-Lab公开了其首个实验性文生图模型——NewBie image Exp0.1,一个专为二次元而生的3.5B 参数 Next-DiT 底模。

不仅支持自然语言输入,还引入了XML结构化Prompt以提升多角色场景的生成可控性,做到复杂提示理解、多人角色特征和指定动作不乱、16chvae色彩材质天花板,lora易炼,20 步出图,8G显存入门,4060 随便跑(这些都不是我说的,魔搭说的)[偷笑]

该模型采用了 Gemma3-4B-it 作为主要的文本编码器。Gemma3倒数第二层的token embedding作为条件输入。同时,模型还引入了Jina CLIP v2 提取池化文本特征(pooled text features),并通过投影融合到模型的时间步/AdaLN条件通路中。这种组合策略使得模型能够更精准地捕捉复杂的文本描述。

引入 FLUX.1-dev 16通道 VAE 在图像解码端,NewBie image Exp0.1 选择了 FLUX.1-dev 的 16通道 VAE。这一选择显著提升了生成图像的视觉质量,使其具备更丰富的色彩渲染能力和更细腻的纹理细节,有助于在生成高质量动漫图像时保持画面的平滑与精致。

模型地址:http://t.cn/AXyp2XJv
comfyUI 已支持:http://t.cn/AXyp2XJP

上海