karminski-牙医
25-11-11 19:28 微博认证:AI博主

百度刚发了个新VLM模型,给大家整理下:

ERNIE-4.5-VL-28B-A3B-Thinking 多模态模型,这个模型虽然总参数有 28B,但采用了 MoE 架构,实际激活参数只有 3B,的确是轻量级。

关键是性能还挺强,在多个基准测试上已经接近行业顶级旗舰模型的表现了。

这个模型的主要特色包括:

视觉推理:这个之前给大家演示过不少,不但能识别图片元素还能推理出内容。
STEM 推理:这个是有用的,可以处理数学、物理等拍照解题任务
视觉定位:提供更精确的定位能力和灵活的指令执行
带图思考:模型可以像人一样思考,能够自由放大缩小图片来把握每一个细节
工具调用:可以使用图片搜索等功能来识别长尾知识
-视频理解:识别视频不同时间段的内容变化

目前部署也支持很多,包括 vLLM 等。不过官方并没有放出 space demo 供大家直接测试,可以等一等。如果大家感兴趣的话稍后我会做个测试。

模型地址:huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

#ai创造营##ai生活指南#

发布于 日本