智谱近期的一揽子更新:
智谱在 KDD 2024 大会上发布了新一代基座模型,包括语言模型 GLM-4-Plus、文生图模型 CogView-3-Plus、图像/视频理解模型 GLM-4V-Plus、视频生成模型 CogVideoX 等。
此外,智谱还在「清言APP」上线了视频通话功能,并在 MaaS 平台上开放了 GLM-4-Flash API 的免费使用。
模型:GLM-4-Plus
在各项指标上,GLM-4-Plus 做到与 GPT-4o 等第一梯队模型持平。此外,在 GLM-4-Plus 模型的训练过程中,通过采用更精准的长短文本数据混合策略,显著增强了模型在长文本推理方面的表现。
模型:CogView-3-Plus
智谱采用 Transformer 架构替代了传统的 UNet 架构来训练扩散模型,并深入研究了扩散模型的噪声规划。
模型:GLM-4V-Plus
智谱基于其在 CogVLM系列模型上的研究经验,研发了同时具备高质量图像理解和视频理解能力的多模态模型 GLM-4V-Plus。
清言:视频通话
清言视频通话功能跨越了文本、音频和视频模态,并具备实时推理能力。用户在拨打清言的视频通话时,可以体验到流畅的互动,即使频繁打断,它也能迅速响应。清言不仅能够理解摄像头拍摄到的画面,还能听懂并准确执行用户的指令,带来如同真人视频通话般的体验。
「清言 APP」 的视频通话功能将于 8月30日上线,首批将面向部分用户开放,同时接受外部申请。
开源:CogVideoX(图 3)
此前,智谱开源了 CogVideoX-2B 版本,再次开源了参数规模更大、性能更强的产品级视频生成模型 CogVideoX-5B。同时,将 CogVideoX-2B 的开源协议调整为更加开放的Apache 2.0协议。
API:GLM-4-Flash 免费
GLM-4-Flash API 全面免费开放,这是智谱开放平台(bigmodel.cn)首个完全免费的大模型 API。
