#一次性揭秘Gemini多模态技术##Gemini负责人揭秘多模态幕后#
一次性揭秘Gemini多模态技术!
就在刚刚,Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。
他和OpenAI前员工、现谷歌AI Studio产品负责人(Logan Kilpatrick,右)探讨了诸多众人好奇已久的问题:
- 为啥Gemini一开始就被设计为原生多模态?
- 将图像和视频转化为token时,是否会存在压缩损失或信息丢失?
- Gemini 2.5为何在视频理解方面表现出色?
- 多模态框架下,一个能力的提升是否会带动其他能力的整体提升?
- ……
一言以蔽之,整个谈话几乎都围绕着Gemini多模态展开,包括其背后设计理念、当前应用以及未来发展方向。
之所以这场谈话值得关注,实在是因为Gemini多模态过于响当当和重要了。
2023年12月,谷歌原生多模态Gemini 1.0模型正式上线,一举将AI竞赛由ChatGPT主导的文本领域带入多模态领域。
而最新的Gemini 2.5 Pro(0605),不仅在代码、推理等任务上更上一层楼,而且还拿下视觉能力第一,可以说夯实了谷歌在多模态领域的领先地位。
此时回看Gemini当时的一些设计理念,会发现其前瞻性与创新性不仅为后续的发展奠定了坚实基础,而且对未来仍具有指导意义。
敲黑板,整场谈话干货满满,咱们这就开始:http://t.cn/A6DRAplp
