可灵AI O1：全球首个统一多模态视频模型可灵AI宣布自主研发的O1视频大模型面向公众全量开放。该模型号称“全球首个统一多模态视频大模型”，采用MVL多模态视觉语言统一交互架构，创新引入Chain-of-Thought推理链路，实现文字、图像、视频三种指令在单一输入框内融合交互。相较于业界常见的分步式流

可灵AI O1：全球首个统一多模态视频模型

可灵AI宣布自主研发的O1视频大模型面向公众全量开放。该模型号称“全球首个统一多模态视频大模型”，采用MVL多模态视觉语言统一交互架构，创新引入Chain-of-Thought推理链路，实现文字、图像、视频三种指令在单一输入框内融合交互。

相较于业界常见的分步式流程，O1模型核心优势显著：可一次性完成文生视频、图生视频、局部编辑及镜头延展任务，无需用户切换界面。依托多视角主体构建技术，模型能精准锁定人物与物体特征，解决镜头切换时的“特征漂移”问题，保障多主体场景画面连贯。

目前，O1模型已在可灵App及官网同步开放体验，支持3-10秒时长自由设定，覆盖短视频创作者、广告团队及个人用户。可灵AI透露后续将开放API接口供第三方平台集成。行业分析指出，该模型或降低AI视频制作门槛，其生成质量与成本效率的平衡仍待市场检验。

#可灵# #可灵ai# #AI# #ai视频# #视频制作# #风口# #科技新闻# #AI创作# #科技前沿# #科技圈#

发布于北京