陈阿荣TD 24-08-30 07:30

🔥 阿里云Qwen团队发布新一代视觉语言模型 **#Qwen2VL** ,多模态理解和操作能力再突破!

✨ **亮点:**
* 🏆 视觉理解性能领先,能理解20分钟以上长视频内容
* 🚀 多模态控制,实现基于视觉和文本指令的自动操作
* 🌎 多语言支持,识别图像中多种语言文本
* 🛠️ 模型架构更新,支持任意分辨率图像(任意图像映射为动态数目的visual token)和增强多模态(「time,width,height」3D位置 embedding)处理

🤯 Qwen2-VL-2B 和 Qwen2-VL-7B 已开源! API 也已开放!
🔗 GIT: http://t.cn/A6R6Rq2Y
🔗 HF: http://t.cn/A6R6Rq2T

发布于 北京