GLM-4.6V系列多模态LLM更新

GLM-4.6V 系列正式发布并开源，这是多模态 LLM 的最新迭代版本。此次发布包含两个型号：

- GLM-4.6V (106B)：面向云端和高性能集群场景的基础模型。
- GLM-4.6V-Flash (9B)：面向本地部署和低延迟应用优化的轻量级模型。

GLM-4.6V 在训练阶段将上下文窗口扩展至 128k token，并在同等参数规模的模型中，实现了SoTA的视觉理解与推理性能。关键在于，该模型首次集成了原生的函数调用能力。这一突破有效地弥合了“视觉感知”与“可执行动作”之间的鸿沟，为现实商业场景中的多模态智能体构建了统一的技术底座。

传统 LLM 的工具使用通常依赖纯文本，在处理图像、视频或复杂文档时，往往需要经过多次中间转换。这一过程不仅容易导致信息丢失，还增加了系统的复杂性。
GLM-4.6V 配备了原生的多模态工具调用能力：

-多模态输入：图像、屏幕截图和文档页面可以直接作为工具参数传入，无需预先转换为文本描述，从而避免了信息折损并大幅简化了处理流程。
-多模态输出：模型能够从视觉层面理解工具返回的结果——例如搜索结果、统计图表、渲染后的网页截图或检索到的商品图片——并将它们整合到后续的推理链及最终输出中。

这种原生支持使得 GLM-4.6V 能够闭环完成从感知、理解到执行的全过程，从而胜任富文本内容创作和视觉网络搜索等复杂任务。

GLM-4.6V 在超过 20 个主流多模态基准测试（包括 MMBench、MathVista 和 OCRBench）中进行了评估。在多模态理解、逻辑推理和长上下文理解等关键能力上，该模型在同等规模的开源模型中均达到了 SOTA 水平（图一）。

API价格方面，GLM-4.6V 的token单价比 GLM-4.5V 便宜一半，而GLM-4.6V-Flash 则完全免费（图二）。

魔塔： http://t.cn/AXyYEwOD
抱脸虫： http://t.cn/AXyYEwOk

#智谱清言##GLM4.6V##国产大模型##大语言模型#

发布于新加坡