爱可可-爱生活 25-10-08 16:25
微博认证:AI博主 2025微博新锐新知博主

多模态视觉语言模型Hunyuan-Vision-1.5由腾讯开源,融合mamba-transformer混合架构,具备领先的多语言、多模态理解与推理能力。

它不仅支持图像和视频识别、OCR、图表解析,还能实现高级视觉推理和3D空间理解,提供“图像思考”新范式,助力更深层次的跨模态智能。

主要特点:

- 创新混合架构,兼顾性能与推理效率;
- 多语言支持,适配多场景应用需求;
- 强大的视觉-语言联合理解与推理能力;
- 支持图像内裁剪、标注等工具,增强推理过程;
- 可结合网络搜索获取扩展知识。

项目已开源,技术报告与模型权重即将发布,欢迎访问GitHub体验和贡献:

🔗 github.com/Tencent-Hunyuan/HunyuanVision

适合科研、开发者和多模态AI爱好者探索前沿视觉语言技术。

发布于 河北