智谱近期的一揽子更新：智谱在 KDD 2024 大会上发布了新一代基座模型，包括语言模型 GLM-4-Plus、文生图模型 CogView-3-Plus、图像/视频理解模型 GLM-4V-Plus、视频生成模型 CogVideoX 等。此外，智谱还在「清言APP」上线了视频通话功能，并在 MaaS 平台上开放了 GLM-4-Flash API 的免费使用。模

智谱近期的一揽子更新：

智谱在 KDD 2024 大会上发布了新一代基座模型，包括语言模型 GLM-4-Plus、文生图模型 CogView-3-Plus、图像/视频理解模型 GLM-4V-Plus、视频生成模型 CogVideoX 等。

此外，智谱还在「清言APP」上线了视频通话功能，并在 MaaS 平台上开放了 GLM-4-Flash API 的免费使用。

模型：GLM-4-Plus

在各项指标上，GLM-4-Plus 做到与 GPT-4o 等第一梯队模型持平。此外，在 GLM-4-Plus 模型的训练过程中，通过采用更精准的长短文本数据混合策略，显著增强了模型在长文本推理方面的表现。

模型：CogView-3-Plus

智谱采用 Transformer 架构替代了传统的 UNet 架构来训练扩散模型，并深入研究了扩散模型的噪声规划。

模型：GLM-4V-Plus

智谱基于其在 CogVLM系列模型上的研究经验，研发了同时具备高质量图像理解和视频理解能力的多模态模型 GLM-4V-Plus。

清言：视频通话

清言视频通话功能跨越了文本、音频和视频模态，并具备实时推理能力。用户在拨打清言的视频通话时，可以体验到流畅的互动，即使频繁打断，它也能迅速响应。清言不仅能够理解摄像头拍摄到的画面，还能听懂并准确执行用户的指令，带来如同真人视频通话般的体验。

「清言 APP」的视频通话功能将于 8月30日上线，首批将面向部分用户开放，同时接受外部申请。

开源：CogVideoX（图 3）

此前，智谱开源了 CogVideoX-2B 版本，再次开源了参数规模更大、性能更强的产品级视频生成模型 CogVideoX-5B。同时，将 CogVideoX-2B 的开源协议调整为更加开放的Apache 2.0协议。

API：GLM-4-Flash 免费

GLM-4-Flash API 全面免费开放，这是智谱开放平台（bigmodel.cn）首个完全免费的大模型 API。

发布于北京