摇摆时间线ZHLMI
25-11-25 15:43 微博认证:上海慧龙计算机系统有限公司多媒体经理

腾讯开源了一个只有 1B 参数量的模型:混元OCR——混元原生多模态端到端 OCR 专家。

✨ 核心特点:
💪 轻量化架构:基于混元原生多模态架构与训练策略,打造仅1B参数的OCR专项模型,大幅降低部署成本。
📑 全场景功能:单一模型覆盖文字检测和识别、复杂文档解析、卡证票据字段抽取、字幕提取等OCR经典任务,更支持端到端拍照翻译与文档问答。
🚀 极致易用:深度贯彻大模型"端到端"理念,单一指令、单次推理直达SOTA结果,较业界级联方案更高效便捷。
🌏 多语种支持:支持超过100种语言,在单语种和混合语言场景下均表现出色。

GitHub:http://t.cn/AXLK1Mab
.

发布于 美国