这是 Google Project Astra 的两段演示视频。 这展示了 Google DeepMind 对未来 AI 智能体的设想。 每段视频均为单次拍摄、实时录制完成。
不得不说 OpenAI 真是坏,看完 GPT-4o 的演示再看 Google 的,一下子就黯淡无光了,如果没有 GPT-4o 的演示其实还不错的。
下面是 JimFan 对这段视频的点评:
在Google I/O的一番思考中,我注意到虽然这些模型可以处理多种类型的输入数据,但它们的输出功能并不是多模态的。例如,Imagen-3 和音乐生成模型还是作为独立部件,与Gemini项目没有整合。未来,各种输入和输出模式的融合似乎是大势所趋:
* 这种整合可以实现多种功能,如“使用更机器化的声音”、“讲话速度加倍”、“对图片进行迭代式编辑”以及“制作一致的连环画”。
* 它能确保情感、背景音等信息在不同模式之间不会丢失。
* 还能开启模型在上下文中新的应用可能,例如教模型用少量示例在不同感官之间进行创新性的结合。
虽然GPT-4o在这方面还未达到完美,但其基本框架设定是正确的。正如Andrej将大语言模型比作操作系统一样,我们期望模型能本地支持尽可能多的文件格式。
Google在一件事情上做得不错:他们正在努力将AI功能整合到搜索框中。我能感觉到从着陆页开始的智能体流程——规划、实时浏览以及多模态输入,这一切都显示了Google在分发方面的强大优势。对于Gemini来说,它不必是全球最优秀的模型,只要是最广泛使用的模型就已足够。
来源:http://t.cn/A6HtK4zW http://t.cn/A6HtK434
发布于 美国
