百度刚发了个新VLM模型，给大家整理下：ERNIE-4.5-VL-28B-A3B-Thinking 多模态模型，这个模型虽然总参数有 28B，但采用了 MoE 架构，实际激活参数只有 3B，的确是轻量级。关键是性能还挺强，在多个基准测试上已经接近行业顶级旗舰模型的表现了。这个模型的主要特色包括：视觉推理：这个之前给

百度刚发了个新VLM模型，给大家整理下：

ERNIE-4.5-VL-28B-A3B-Thinking 多模态模型，这个模型虽然总参数有 28B，但采用了 MoE 架构，实际激活参数只有 3B，的确是轻量级。

关键是性能还挺强，在多个基准测试上已经接近行业顶级旗舰模型的表现了。

这个模型的主要特色包括：

视觉推理：这个之前给大家演示过不少，不但能识别图片元素还能推理出内容。
STEM 推理：这个是有用的，可以处理数学、物理等拍照解题任务
视觉定位：提供更精确的定位能力和灵活的指令执行
带图思考：模型可以像人一样思考，能够自由放大缩小图片来把握每一个细节
工具调用：可以使用图片搜索等功能来识别长尾知识
-视频理解：识别视频不同时间段的内容变化

目前部署也支持很多，包括 vLLM 等。不过官方并没有放出 space demo 供大家直接测试，可以等一等。如果大家感兴趣的话稍后我会做个测试。

模型地址：huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

#ai创造营##ai生活指南#

发布于日本