谷歌 Nano banana 实现角色一致性的秘密最近，谷歌 Nano Banana 背后的产品和工程负责人 Nicole Brichtova 与 Hansa Srinivasan 接受红杉的访谈，表示角色一致性非常棘手，在不涉密的前提下总结了为什么可以实现这么好的角色一致性，包括：1. Gemini的原生多模态基因：与专注于单一图像生成的模

谷歌 Nano banana 实现角色一致性的秘密

最近，谷歌 Nano Banana 背后的产品和工程负责人 Nicole Brichtova 与 Hansa Srinivasan 接受红杉的访谈，表示角色一致性非常棘手，在不涉密的前提下总结了为什么可以实现这么好的角色一致性，包括：

1. Gemini的原生多模态基因：与专注于单一图像生成的模型不同，“Nano Banana”构建于谷歌强大的多模态基础模型 Gemini 之上。这意味着它生来就具备对海量、多维度数据（文本、图像、逻辑）的深刻理解与泛化能力。这种泛化能力是实现从一张 2D 图片推断并稳定重现角色特征的基石。

2. 长上下文窗口的交互优势：得益于 Gemini 架构，用户可以与“Nano Banana ”进行多轮对话式的“会话式编辑”。用户不仅可以输入一张或多张参考图，还能在生成后通过自然语言持续迭代、修正，模型能在长对话中保持对角色特征的记忆，这彻底改变了过去需要上传多张图片、经过漫长微调才能生成相似形象的低效工作流。

3. 对“工艺”与高质量数据的极致追求：“我们团队有人对文本渲染极度痴迷，所以我们的文本渲染效果就不断变好。” Srinivasan 在访谈中强调，AI 研发远不止是“喂数据”。团队对细节的关注，即“工艺（craft）”，至关重要。这包括对训练数据的精挑细选、对模型每一个设计决策的精雕细琢，以及对特定问题（如人脸一致性、文本渲染）的专注攻坚。

4. 严谨且“主观”的人工评估体系：对于“像不像”这类主观性极强的标准，传统量化指标常常失灵。谷歌为此建立了强大的内部评估流程，让团队成员用自己的照片进行测试。因为只有本人才能最精准地判断 AI 生成的形象是否抓住了面部特征的精髓。这种“我知道这像不像我”的直觉判断，成为了衡量模型能力的关键标尺。 http://t.cn/AX2N2M2G

发布于北京