是煦煦哟 25-10-01 01:00
微博认证:科技博主 超话小主持人(科技超话)

谷歌AI Mode升级视觉能力:Gemini驱动,重塑搜索与创作体验
9月30日,谷歌正式宣布为人工智能驱动的搜索体验“AI Mode”新增视觉结果功能,通过整合Gemini 2.5模型、谷歌搜索、Lens视觉识别及图像搜索的核心能力,为用户在灵感探索与购物决策场景提供更直观的图像化答案,标志着搜索体验向多模态交互迈出关键一步。
此次升级的核心在于技术能力的深度融合。Gemini 2.5模型的多模态理解能力成为功能基石,能够精准解析图像中的物体关系、材质特征、色彩与形态等细节,配合谷歌Lens的精准物体识别技术,可实现从画面到信息的高效转化 。谷歌独创的“查询扇出”技术进一步拓展了信息维度——AI Mode会围绕图像整体及其中单个物体生成多个关联查询,获取比传统搜索更具深度与广度的内容,最终输出兼具语境相关性与细节丰富度的视觉结果。
在实际应用场景中,这一功能展现出极强的实用价值。针对灵感探索需求,用户只需上传手绘草图、现有场景照片或输入描述性指令,AI Mode便能依托Gemini 2.5的世界知识与图像生成能力,生成符合预期的视觉方案。例如上传书架照片后,系统可精准识别每本图书并生成同类高分推荐书单,附带购买链接与深度解读,还支持通过追问缩小搜索范围 。而在购物场景中,功能则更贴合消费决策需求:输入“微宽松的复古牛仔外套”这类描述性语句,即可生成对应的商品视觉效果,配合虚拟试穿等辅助功能,帮助用户直观判断风格匹配度。目前,用户可通过安卓与iOS端谷歌应用上传图片或拍摄实景,获取附带深度解析与跳转链接的视觉回复。
从技术演进与生态布局来看,视觉结果功能是谷歌AI Mode持续迭代的重要里程碑。自推出以来,AI Mode因简洁设计、快速响应及复杂问题处理能力获得用户认可,其平均查询长度达到传统搜索的两倍,尤其适用于产品对比、教程学习、行程规划等深度任务 。此次新增视觉能力后,AI Mode进一步打破了文本与图像的交互壁垒,与此前测试的图表生成、PDF解析、Canvas项目规划等功能形成协同,构建起更完整的多模态搜索生态。同时,该功能所依托的Gemini 2.5 Flash Image模型(代号“纳米香蕉”)已在LMArena基准测试中斩获图像编辑榜首,其角色一致性保持、多图融合等特性,也为视觉结果的高质量输出提供了技术保障。
值得注意的是,谷歌在功能创新中同步强化了安全机制。所有AI生成图像均嵌入SynthID隐形数字水印,可有效识别AI创作内容,防范深度伪造风险。目前,该功能已向美国数百万Labs用户开放,用户可通过谷歌实验室注册体验,谷歌将根据用户反馈持续优化功能表现。

此次升级不仅优化了个体用户的搜索体验,更推动了搜索技术的范式转变——从“文字提问-链接回答”的传统模式,迈向“多模态交互-精准结果生成”的智能形态。随着国产芯片厂商的适配跟进与技术迭代,多模态搜索有望成为AI时代的核心入口,重构人与信息的连接方式。 #科技# http://t.cn/AX7NB4lJ

发布于 福建