谷歌 Nano banana 实现角色一致性的秘密
最近,谷歌 Nano Banana 背后的产品和工程负责人 Nicole Brichtova 与 Hansa Srinivasan 接受红杉的访谈,表示角色一致性非常棘手,在不涉密的前提下总结了为什么可以实现这么好的角色一致性,包括:
1. Gemini的原生多模态基因 :与专注于单一图像生成的模型不同,“Nano Banana”构建于谷歌强大的多模态基础模型 Gemini 之上。这意味着它生来就具备对海量、多维度数据(文本、图像、逻辑)的深刻理解与泛化能力。这种泛化能力是实现从一张 2D 图片推断并稳定重现角色特征的基石。
2. 长上下文窗口的交互优势 :得益于 Gemini 架构,用户可以与“Nano Banana ”进行多轮对话式的“会话式编辑”。用户不仅可以输入一张或多张参考图,还能在生成后通过自然语言持续迭代、修正,模型能在长对话中保持对角色特征的记忆,这彻底改变了过去需要上传多张图片、经过漫长微调才能生成相似形象的低效工作流。
3. 对“工艺”与高质量数据的极致追求 :“我们团队有人对文本渲染极度痴迷,所以我们的文本渲染效果就不断变好。” Srinivasan 在访谈中强调,AI 研发远不止是“喂数据”。团队对细节的关注,即“工艺(craft)”,至关重要。这包括对训练数据的精挑细选、对模型每一个设计决策的精雕细琢,以及对特定问题(如人脸一致性、文本渲染)的专注攻坚。
4. 严谨且“主观”的人工评估体系 :对于“像不像”这类主观性极强的标准,传统量化指标常常失灵。谷歌为此建立了强大的内部评估流程,让团队成员用自己的照片进行测试。因为只有本人才能最精准地判断 AI 生成的形象是否抓住了面部特征的精髓。这种“我知道这像不像我”的直觉判断,成为了衡量模型能力的关键标尺。 http://t.cn/AX2N2M2G
发布于 北京
