#一句话生成沉浸式世界##腾讯发布开源3D世界模型#
腾讯正式发布并开源了混元3D世界模型1.0,兼容主流图形管线,支持文生世界和图生世界两种模式。
具体来看:
- 支持文本/图像输入,生成360°沉浸式场景
- 自动完成建筑、地形、植被等布局,场景可直接导出为Mesh文件,兼容Unity、UE、Blender等主流引擎
- 场景具备语义分层结构,前景背景可独立编辑,适合做物理仿真或个性化创作
- 输出结果可无缝接入Vision Pro等虚拟现实设备,或是导出为3D网格资产
【图9】展示了腾讯混元3D模型的整体流程,简单来说就是四步:
1. 生成全景图:输入一句话或一张图,模型用AI“脑补”出一整张360°沉浸式全景图。
2. 分出前景背景:模型识别图里的主要物体(比如火山、岛屿),把它们从图中分离出来,形成多个图层。
3. 估算深度信息:每一层图都加上深度,判断物体离用户有多远,保证空间结构真实。
4. 拼出3D世界:把这些图层按深度和位置“贴”到虚拟空间里,就成了一个可以自由漫游的3D世界。
项目主页:3d-models.hunyuan.tencent.com/world/
体验地址:3d.hunyuan.tencent.com/sceneTo3D
Hugging Face模型地址:huggingface.co/tencent/HunyuanWorld-1
Github项目地址:github.com/Tencent-Hunyuan/HunyuanWorld-1.0
