谷歌 DeepMind 的三名研究员 Alexander Kolesnikov、Xiaohua Zhai、Lucas Beyer 转投 OpenAI,合作打造 OpenAI 苏黎世办公室,三人将致力于开发多模态 AI,即能够处理图像到音频等多种媒介的人工智能模型。
三人均是大名鼎鼎的 ViT 论文(An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)作者。
其他研究还包括:
big_vision: http://t.cn/A6mXCgpC
WebLI: https://research.google/blog/pali-scaling-language-image-learning-in-100-languages/
SigLIP: http://t.cn/A6CFL70h
PaliGemma: http://t.cn/A6QrVfA2
发布于 北京
