GLM-4.6V 系列正式发布并开源,这是多模态 LLM 的最新迭代版本。此次发布包含两个型号:
- GLM-4.6V (106B):面向云端和高性能集群场景的基础模型。
- GLM-4.6V-Flash (9B):面向本地部署和低延迟应用优化的轻量级模型。
GLM-4.6V 在训练阶段将上下文窗口扩展至 128k token,并在同等参数规模的模型中,实现了SoTA的视觉理解与推理性能。关键在于,该模型首次集成了原生的函数调用能力。这一突破有效地弥合了“视觉感知”与“可执行动作”之间的鸿沟,为现实商业场景中的多模态智能体构建了统一的技术底座。
传统 LLM 的工具使用通常依赖纯文本,在处理图像、视频或复杂文档时,往往需要经过多次中间转换。这一过程不仅容易导致信息丢失,还增加了系统的复杂性。
GLM-4.6V 配备了原生的多模态工具调用能力:
-多模态输入:图像、屏幕截图和文档页面可以直接作为工具参数传入,无需预先转换为文本描述,从而避免了信息折损并大幅简化了处理流程。
-多模态输出:模型能够从视觉层面理解工具返回的结果——例如搜索结果、统计图表、渲染后的网页截图或检索到的商品图片——并将它们整合到后续的推理链及最终输出中。
这种原生支持使得 GLM-4.6V 能够闭环完成从感知、理解到执行的全过程,从而胜任富文本内容创作和视觉网络搜索等复杂任务。
GLM-4.6V 在超过 20 个主流多模态基准测试(包括 MMBench、MathVista 和 OCRBench)中进行了评估。在多模态理解、逻辑推理和长上下文理解等关键能力上,该模型在同等规模的开源模型中均达到了 SOTA 水平(图一)。
API价格方面,GLM-4.6V 的token单价比 GLM-4.5V 便宜一半,而GLM-4.6V-Flash 则完全免费(图二)。
魔塔: http://t.cn/AXyYEwOD
抱脸虫: http://t.cn/AXyYEwOk
#智谱清言##GLM4.6V##国产大模型##大语言模型#
