🔥 阿里云Qwen团队发布新一代视觉语言模型 **#Qwen2VL** ，多模态理解和操作能力再突破！✨ **亮点:*** 🏆 视觉理解性能领先，能理解20分钟以上长视频内容* 🚀 多模态控制，实现基于视觉和文本指令的自动操作* 🌎 多语言支持，识别图像中多种语言文本* 🛠️ 模型架构更新，支持任意分

🔥 阿里云Qwen团队发布新一代视觉语言模型 **#Qwen2VL** ，多模态理解和操作能力再突破！

✨ **亮点:**
* 🏆 视觉理解性能领先，能理解20分钟以上长视频内容
* 🚀 多模态控制，实现基于视觉和文本指令的自动操作
* 🌎 多语言支持，识别图像中多种语言文本
* 🛠️ 模型架构更新，支持任意分辨率图像（任意图像映射为动态数目的visual token）和增强多模态（「time，width，height」3D位置 embedding）处理

🤯 Qwen2-VL-2B 和 Qwen2-VL-7B 已开源！ API 也已开放！
🔗 GIT: http://t.cn/A6R6Rq2Y
🔗 HF: http://t.cn/A6R6Rq2T

发布于北京