InfinityStar推出统一视觉生成模型

感觉现在这些新视频模型强调的不仅仅是画质而是更严格的时空一致性了~！🧐

Infinity⭐️：统一时空自回归视觉生成模型（NeurIPS 2025 口头论文）
🧐InfinityStar 是由 FoundationVision 团队开发的统一时空自回归视觉生成框架，在单一架构下同时支持高分辨率图像与动态视频生成，性能超越扩散模型（Diffusion）并显著提速（约快 10 倍），是首个可生成工业级 720p 视频的离散自回归模型，标志着视觉生成模型进入统一建模新时代。
➡️链接：http://t.cn/AX2Nmmdl
✨重点

●🌌 核心理念：Unified Spacetime AutoRegressive Modeling

InfinityStar 通过时空联合建模（Spacetime Joint Modeling）在单个自回归框架中同时捕获空间与时间依赖，使图像与视频生成共享统一架构。
●🎬 多任务统一生成能力

该模型无需架构切换即可完成多类视觉生成任务：
Text-to-Image（文生图）
Text-to-Video（文生视频）
Image-to-Video（图生视频）
Long Interactive Video（长交互视频扩展）
●🏆 SOTA 性能与速度优势
VBench 得分：83.74，领先所有自回归模型
超越扩散类模型（如 HunyuanVideo）
推理速度约为扩散模型的 10 倍
首个可生成工业级 720p 视频的自回归模型
●🧠 技术创新点
纯离散比特级建模（bitwise modeling）：通过比特级 token 序列实现统一视觉表征
空间-时间联合预测（Spacetime Prediction）：将时序建模转化为自回归 token 预测问题
FlexAttention 优化：兼容 PyTorch ≥ 2.5.1，大幅加速训练
●🕹️ Demo 与可视化

官方提供交互式网页 Demo 与示例视频：
通用美学生成
动作视频生成
二次元/3D 动画生成
长交互视频（如 11.11.mp4）

InfinityStar 将“图像生成”和“视频生成”彻底统一到一个离散自回归模型中，以十倍速性能实现扩散模型难以企及的视觉质量与时序一致性。

#AI白日梦想家[超话]# #ai创造营# #你好人工智能时代# #ai生活指南#

发布于广西