谷歌 DeepMind 的三名研究员 Alexander Kolesnikov、Xiaohua Zhai、Lucas Beyer 转投 OpenAI，合作打造 OpenAI 苏黎世办公室，三人将致力于开发多模态 AI，即能够处理图像到音频等多种媒介的人工智能模型。三人均是大名鼎鼎的 ViT 论文（An Image is Worth 16x16 Words: Transformers for Image Reco

谷歌 DeepMind 的三名研究员 Alexander Kolesnikov、Xiaohua Zhai、Lucas Beyer 转投 OpenAI，合作打造 OpenAI 苏黎世办公室，三人将致力于开发多模态 AI，即能够处理图像到音频等多种媒介的人工智能模型。

三人均是大名鼎鼎的 ViT 论文（An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale）作者。

其他研究还包括：
big_vision: http://t.cn/A6mXCgpC
WebLI: https://research.google/blog/pali-scaling-language-image-learning-in-100-languages/
SigLIP: http://t.cn/A6CFL70h
PaliGemma: http://t.cn/A6QrVfA2

发布于北京