腾讯新推出的 Pixal3D,采用像素对齐的生成方式,确保生成结果与输入视角保持几何一致性
两个特点:
- 忠实于原图
- 背面以及其他不可见视角也能高保真生成了
保真度的核心瓶颈在于 2D–3D 对应关系。大多数原生 3D 生成器在规范空间中合成形状,并通过跨注意力机制注入图像线索,迫使模型隐式搜索哪些像素对应哪些 3D 区域。
Pixal3D 不直接在规范空间生成,而是直接在像素对齐的相机空间中生成 — 你所见即所得。从一开始,生成的 3D 资产就与输入视图对齐。
同时,Pixal3D 引入了基于反投影的图像条件方案 — 明确地将多尺度像素特征反投影到 3D 体素中,从而解决 2D-3D 关联问题。输入图像不再只是提示 — 它成为几何锚点。
Pixal3D 展示了像素对齐的 3D 生成不仅可行且可扩展,还显著提升了保真度,推动原生 3D 生成更接近重建级别的忠实度。它还自然扩展到多视图和场景级 3D 生成。
项目页面:ldyang694.github.io/projects/pixal3d
发布于 北京
