Step1X-3D: 텍스처 3D 자산 생성의 새로운 기준을 제시하다


Step1X-3D는 500만 개 이상의 자산을 활용한 고품질 데이터셋, 하이브리드 VAE-DiT 및 확산 기반 텍스처 합성 모듈을 결합한 아키텍처, 그리고 2D 제어 기법의 3D 적용을 특징으로 하는 혁신적인 오픈소스 3D 자산 생성 프레임워크입니다. 이는 3D 생성 분야의 발전에 크게 기여할 것으로 예상됩니다.

related iamge

최근 텍스트, 이미지, 오디오, 비디오 분야에서 생성형 AI가 눈부신 발전을 이루고 있지만, 3D 생성 분야는 데이터 부족, 알고리즘의 한계, 생태계 단편화 등의 문제로 인해 상대적으로 뒤처져 있었습니다. 하지만 이러한 난관을 극복하고 3D 생성의 새로운 지평을 연 연구 결과가 등장했습니다. 바로 Step1X-3D 입니다.

Step1X-3D는 중국 연구진(Weiyu Li 외 17명)이 개발한 오픈 프레임워크로, 세 가지 핵심 전략을 통해 3D 생성의 한계를 뛰어넘었습니다.

첫째, 연구진은 500만 개 이상의 자산을 엄격한 기준으로 선별하고 처리하여 200만 개의 고품질 데이터셋을 구축했습니다. 이 데이터셋은 표준화된 기하학적 및 텍스처 속성을 갖추고 있어 3D 모델 생성의 정확성과 품질을 크게 향상시켰습니다. 이는 기존 3D 생성 모델의 가장 큰 걸림돌이었던 데이터 부족 문제를 해결하는 중요한 성과입니다.

둘째, Step1X-3D는 하이브리드 VAE-DiT 기하 생성기와 확산 기반 텍스처 합성 모듈을 결합한 독창적인 2단계 아키텍처를 채택했습니다. VAE-DiT 구성 요소는 퍼셉터 기반 잠재적 인코딩과 선명한 가장자리 샘플링을 사용하여 TSDF(Truncated Signed Distance Function) 표현을 생성하며, 세부 정보를 정확하게 유지합니다. 확산 기반 텍스처 합성 모듈은 기하학적 조건과 잠재 공간 동기화를 통해 다양한 시점에서의 일관성 있는 텍스처를 생성합니다. 이는 기존 3D 모델 생성의 단점으로 지적되었던 텍스처의 품질과 일관성 문제를 해결하는 핵심 기술입니다.

셋째, Step1X-3D는 모델, 학습 코드, 적응 모듈을 완전히 오픈 소스로 공개했습니다. 더욱 주목할 만한 점은 2D 제어 기법(예: LoRA)을 3D 합성에 직접 적용할 수 있도록 지원한다는 것입니다. 이는 2D와 3D 생성 패러다임을 연결하는 중요한 발걸음이며, 향후 3D 생성 기술의 발전에 큰 영향을 미칠 것으로 예상됩니다.

Step1X-3D는 기존 오픈소스 방식을 능가하는 성능을 보였을 뿐만 아니라, 독점적인 솔루션과 비교해도 경쟁력 있는 품질을 달성했습니다. 데이터 품질, 알고리즘 정확도, 재현성을 동시에 향상시킨 Step1X-3D는 제어 가능한 3D 자산 생성 분야에서 새로운 표준을 제시할 것으로 기대됩니다. 이 연구는 향후 게임 개발, VR/AR, 영화 특수효과 등 다양한 분야에 혁신적인 변화를 가져올 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

Published:  (Updated: )

Author: Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan

http://arxiv.org/abs/2505.07747v1