3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion

Chen, Zhaoxi; Tang, Jiaxiang; Dong, Yuhao; Cao, Ziang; Hong, Fangzhou; Lan, Yushi; Wang, Tengfei; Xie, Haozhe; Wu, Tong; Saito, Shunsuke; Pan, Liang; Lin, Dahua; Liu, Ziwei

Computer Science > Computer Vision and Pattern Recognition

arXiv:2409.12957 (cs)

[Submitted on 19 Sep 2024 (v1), last revised 17 Mar 2025 (this version, v2)]

Title:3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion

Authors:Zhaoxi Chen, Jiaxiang Tang, Yuhao Dong, Ziang Cao, Fangzhou Hong, Yushi Lan, Tengfei Wang, Haozhe Xie, Tong Wu, Shunsuke Saito, Liang Pan, Dahua Lin, Ziwei Liu

View PDF HTML (experimental)

Abstract:The increasing demand for high-quality 3D assets across various industries necessitates efficient and automated 3D content creation. Despite recent advancements in 3D generative models, existing methods still face challenges with optimization speed, geometric fidelity, and the lack of assets for physically based rendering (PBR). In this paper, we introduce 3DTopia-XL, a scalable native 3D generative model designed to overcome these limitations. 3DTopia-XL leverages a novel primitive-based 3D representation, PrimX, which encodes detailed shape, albedo, and material field into a compact tensorial format, facilitating the modeling of high-resolution geometry with PBR assets. On top of the novel representation, we propose a generative framework based on Diffusion Transformer (DiT), which comprises 1) Primitive Patch Compression, 2) and Latent Primitive Diffusion. 3DTopia-XL learns to generate high-quality 3D assets from textual or visual inputs. We conduct extensive qualitative and quantitative experiments to demonstrate that 3DTopia-XL significantly outperforms existing methods in generating high-quality 3D assets with fine-grained textures and materials, efficiently bridging the quality gap between generative models and real-world applications.

Comments:	CVPR 2025, Code this http URL Project Page this http URL
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Graphics (cs.GR)
Cite as:	arXiv:2409.12957 [cs.CV]
	(or arXiv:2409.12957v2 [cs.CV] for this version)
	http://doi.org/10.48550/arXiv.2409.12957

Submission history

From: Zhaoxi Chen [view email]
[v1] Thu, 19 Sep 2024 17:59:06 UTC (16,271 KB)
[v2] Mon, 17 Mar 2025 07:20:02 UTC (20,456 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators