这是 Google Project Astra 的两段演示视频。这展示了 Google DeepMind 对未来 AI 智能体的设想。每段视频均为单次拍摄、实时录制完成。不得不说 OpenAI 真是坏，看完 GPT-4o 的演示再看 Google 的，一下子就黯淡无光了，如果没有 GPT-4o 的演示其实还不错的。下面是 JimFan 对这段视频的点评：

这是 Google Project Astra 的两段演示视频。这展示了 Google DeepMind 对未来 AI 智能体的设想。每段视频均为单次拍摄、实时录制完成。

不得不说 OpenAI 真是坏，看完 GPT-4o 的演示再看 Google 的，一下子就黯淡无光了，如果没有 GPT-4o 的演示其实还不错的。

下面是 JimFan 对这段视频的点评：

在Google I/O的一番思考中，我注意到虽然这些模型可以处理多种类型的输入数据，但它们的输出功能并不是多模态的。例如，Imagen-3 和音乐生成模型还是作为独立部件，与Gemini项目没有整合。未来，各种输入和输出模式的融合似乎是大势所趋：

* 这种整合可以实现多种功能，如“使用更机器化的声音”、“讲话速度加倍”、“对图片进行迭代式编辑”以及“制作一致的连环画”。
* 它能确保情感、背景音等信息在不同模式之间不会丢失。
* 还能开启模型在上下文中新的应用可能，例如教模型用少量示例在不同感官之间进行创新性的结合。

虽然GPT-4o在这方面还未达到完美，但其基本框架设定是正确的。正如Andrej将大语言模型比作操作系统一样，我们期望模型能本地支持尽可能多的文件格式。

Google在一件事情上做得不错：他们正在努力将AI功能整合到搜索框中。我能感觉到从着陆页开始的智能体流程——规划、实时浏览以及多模态输入，这一切都显示了Google在分发方面的强大优势。对于Gemini来说，它不必是全球最优秀的模型，只要是最广泛使用的模型就已足够。

来源：http://t.cn/A6HtK4zW http://t.cn/A6HtK434

发布于美国