是煦煦哟 25-12-17 10:20
微博认证:科技博主 超话小主持人(科技超话)

12月16日,阿里发布通义万相2.6系列模型,其核心技术突破集中在多模态融合与专业级生成能力升级。作为国内首个支持角色扮演功能的视频模型,它通过创新的多模态联合建模技术,深度解析输入参考视频的时序特征,精准捕捉主体情绪、姿态等视觉信息,同时提取音色、语速等声学参数,实现画面与声音的全维度一致性迁移,支持单人和多人场景的自然演绎。
模型在性能上实现关键突破,单次生成视频时长达到国内最高的15秒,画质、音效及指令遵循精度显著提升,还新增分镜控制功能,通过高层语义理解将提示词转化为专业多镜头脚本,确保镜头切换时主体、场景与氛围的高度统一。
此外,该模型集成音画同步、声音驱动等核心技术,形成全球功能最全的视频生成体系,其技术架构可满足影视制作、广告设计等专业场景的严苛需求,目前已通过阿里云百炼及万相官网开放使用,标志着国内AI视频生成技术进入专业化、高精度发展阶段。 http://t.cn/AXUa3VqD

发布于 福建