多模态视觉语言模型Hunyuan-Vision-1.5由腾讯开源，融合mamba-transformer混合架构，具备领先的多语言、多模态理解与推理能力。它不仅支持图像和视频识别、OCR、图表解析，还能实现高级视觉推理和3D空间理解，提供“图像思考”新范式，助力更深层次的跨模态智能。主要特点：- 创新混合架构，兼顾

多模态视觉语言模型Hunyuan-Vision-1.5由腾讯开源，融合mamba-transformer混合架构，具备领先的多语言、多模态理解与推理能力。

它不仅支持图像和视频识别、OCR、图表解析，还能实现高级视觉推理和3D空间理解，提供“图像思考”新范式，助力更深层次的跨模态智能。

主要特点：

- 创新混合架构，兼顾性能与推理效率；
- 多语言支持，适配多场景应用需求；
- 强大的视觉-语言联合理解与推理能力；
- 支持图像内裁剪、标注等工具，增强推理过程；
- 可结合网络搜索获取扩展知识。

项目已开源，技术报告与模型权重即将发布，欢迎访问GitHub体验和贡献：

🔗 github.com/Tencent-Hunyuan/HunyuanVision

适合科研、开发者和多模态AI爱好者探索前沿视觉语言技术。

发布于河北