刚刚,智谱开源GLM-4.6V系列模型啦~
GLM-4.6V系列型号包括两个版本:GLM-4.6V (106B),一个为云端和高性能集群场景设计的基础模型,以及GLM-4.6V-Flash (9B),一个针对本地部署和低延迟应用优化的轻量化模型。
GLM-4.6V在训练中将其上下文窗口扩展到128k个token,并在同类参数规模的模型中实现了视觉理解的最先进性能。最关键的是,我们首次集成了原生的函数调用功能。这有效地弥合了“视觉感知”和“可执行动作”之间的鸿沟,为现实世界商业场景中的多模态智能体提供了统一的技术基础。
GLM-4.6V 引入了几个关键特性:
🌟原生多模态功能调用:实现了原生的视觉驱动工具使用。图像、截图和文档页面可以直接作为工具输入,而无需文本转换,同时视觉输出(如图表、搜索图像、渲染页面)会被解释并融入推理链条中。这闭环了从感知到理解再到执行的过程。
🌟交错图文内容生成:支持从复杂的多模态输入中创建高质量的混合媒体内容。GLM-4.6V 处理多模态上下文—涵盖文档、用户输入和工具检索的图像—并合成与任务相关的连贯交错图文内容。在生成过程中,它可以主动调用搜索和检索工具来收集和策划额外的文本和视觉素材,生成丰富、视觉化的内容。
🌟多模态文档理解:GLM-4.6V 能处理最多128K个标记的多文档或长文档输入,直接将富格式页面作为图像进行解读。它可以共同理解文本、布局、图表、表格和图形,从而准确理解复杂、以图像为主的文档,而无需将其先转换为纯文本。
🌟前端复刻与视觉编辑:从 UI 截图重建像素级准确的 HTML/CSS,并支持自然语言驱动的编辑。它通过视觉检测布局、组件和样式,生成干净的代码,并通过简单的用户指令应用迭代的视觉修改。
#科技先锋官#
