谷歌AI Mode升级视觉能力：Gemini驱动，重塑搜索与创作体验 9月30日，谷歌正式宣布为人工智能驱动的搜索体验“AI Mode”新增视觉结果功能，通过整合Gemini 2.5模型、谷歌搜索、Lens视觉识别及图像搜索的核心能力，为用户在灵感探索与购物决策场景提供更直观的图像化答案，标志着搜索体验向多模态交互

谷歌AI Mode升级视觉能力：Gemini驱动，重塑搜索与创作体验
9月30日，谷歌正式宣布为人工智能驱动的搜索体验“AI Mode”新增视觉结果功能，通过整合Gemini 2.5模型、谷歌搜索、Lens视觉识别及图像搜索的核心能力，为用户在灵感探索与购物决策场景提供更直观的图像化答案，标志着搜索体验向多模态交互迈出关键一步。
此次升级的核心在于技术能力的深度融合。Gemini 2.5模型的多模态理解能力成为功能基石，能够精准解析图像中的物体关系、材质特征、色彩与形态等细节，配合谷歌Lens的精准物体识别技术，可实现从画面到信息的高效转化。谷歌独创的“查询扇出”技术进一步拓展了信息维度——AI Mode会围绕图像整体及其中单个物体生成多个关联查询，获取比传统搜索更具深度与广度的内容，最终输出兼具语境相关性与细节丰富度的视觉结果。
在实际应用场景中，这一功能展现出极强的实用价值。针对灵感探索需求，用户只需上传手绘草图、现有场景照片或输入描述性指令，AI Mode便能依托Gemini 2.5的世界知识与图像生成能力，生成符合预期的视觉方案。例如上传书架照片后，系统可精准识别每本图书并生成同类高分推荐书单，附带购买链接与深度解读，还支持通过追问缩小搜索范围。而在购物场景中，功能则更贴合消费决策需求：输入“微宽松的复古牛仔外套”这类描述性语句，即可生成对应的商品视觉效果，配合虚拟试穿等辅助功能，帮助用户直观判断风格匹配度。目前，用户可通过安卓与iOS端谷歌应用上传图片或拍摄实景，获取附带深度解析与跳转链接的视觉回复。
从技术演进与生态布局来看，视觉结果功能是谷歌AI Mode持续迭代的重要里程碑。自推出以来，AI Mode因简洁设计、快速响应及复杂问题处理能力获得用户认可，其平均查询长度达到传统搜索的两倍，尤其适用于产品对比、教程学习、行程规划等深度任务。此次新增视觉能力后，AI Mode进一步打破了文本与图像的交互壁垒，与此前测试的图表生成、PDF解析、Canvas项目规划等功能形成协同，构建起更完整的多模态搜索生态。同时，该功能所依托的Gemini 2.5 Flash Image模型（代号“纳米香蕉”）已在LMArena基准测试中斩获图像编辑榜首，其角色一致性保持、多图融合等特性，也为视觉结果的高质量输出提供了技术保障。
值得注意的是，谷歌在功能创新中同步强化了安全机制。所有AI生成图像均嵌入SynthID隐形数字水印，可有效识别AI创作内容，防范深度伪造风险。目前，该功能已向美国数百万Labs用户开放，用户可通过谷歌实验室注册体验，谷歌将根据用户反馈持续优化功能表现。

此次升级不仅优化了个体用户的搜索体验，更推动了搜索技术的范式转变——从“文字提问-链接回答”的传统模式，迈向“多模态交互-精准结果生成”的智能形态。随着国产芯片厂商的适配跟进与技术迭代，多模态搜索有望成为AI时代的核心入口，重构人与信息的连接方式。 #科技# http://t.cn/AX7NB4lJ

发布于福建