단일 이미지로 3D 도시를 건설하다: 훈련 없는 혁신적인 3DTown
Zheng Kaizhi 등 연구진이 개발한 3DTown은 단일 이미지를 사용하여 사실적이고 일관성 있는 3D 도시 장면을 생성하는 혁신적인 훈련 없는 프레임워크입니다. 영역 기반 생성과 공간 인식 3D 인페인팅이라는 두 가지 핵심 전략을 통해 기존 모델들의 한계를 극복하고, 기하학적 품질, 공간적 일관성, 질감 정확도에서 최첨단 모델들을 능가하는 성능을 보여줍니다.

3D 모델링의 혁명이 시작되었습니다! 복잡한 장비와 다수의 이미지, 혹은 수많은 노력이 필요했던 기존의 3D 도시 모델링 방식을 뒤바꿀 획기적인 연구 결과가 발표되었습니다. Zheng Kaizhi 등 연구진이 개발한 3DTown은 단 하나의 이미지만으로 사실적이고 일관성 있는 3D 도시 장면을 생성하는 훈련 없는 프레임워크입니다.
기존 한계 극복: 3DTown의 핵심 전략
기존의 3D 생성 모델들은 물체 단위 생성에는 뛰어났지만, 전체 장면 생성에서는 기하학적 불일치, 레이아웃 오류, 낮은 품질의 메시 등의 문제점을 안고 있었습니다. 3DTown은 이러한 문제점을 해결하기 위해 두 가지 핵심 전략을 활용합니다.
영역 기반 생성 (Region-based Generation): 입력 이미지를 여러 개의 겹치는 영역으로 분할하고, 각 영역에 대해 사전 훈련된 3D 객체 생성기를 사용하여 3D 모델을 생성합니다. 이를 통해 이미지와 3D 모델 간의 정렬 및 해상도를 개선합니다.
공간 인식 3D 인페인팅 (Spatial-aware 3D Inpainting): 마스크 처리된 수정된 흐름 인페인팅(masked rectified flow inpainting) 과정을 통해 누락된 기하 구조를 채우면서 전체 장면의 일관성과 고품질 기하 구조 생성을 보장합니다. 이는 구조적 연속성을 유지하는 데 중요한 역할을 합니다.
이러한 모듈식 설계는 해상도 병목 현상을 극복하고 3D 감독이나 미세 조정 없이도 공간 구조를 보존할 수 있도록 합니다.
놀라운 성능: 최첨단 모델 압도
다양한 장면에 대한 광범위한 실험 결과, 3DTown은 Trellis, Hunyuan3D-2, TripoSG 등 기존 최첨단 모델들을 기하학적 품질, 공간적 일관성, 질감 정확도 측면에서 모두 능가하는 것으로 나타났습니다. 단일 이미지만으로도 고품질의 3D 도시 생성이 가능하다는 것을 입증한 것입니다.
미래를 위한 전망: 3DTown의 가능성
3DTown은 훈련이 필요 없는 접근 방식을 통해 3D 모델링의 효율성을 획기적으로 높였을 뿐만 아니라, 도시 계획, 게임 개발, 가상 현실 등 다양한 분야에서 활용될 수 있는 잠재력을 가지고 있습니다. 앞으로 3DTown의 발전과 응용은 3D 기술의 새로운 지평을 열 것으로 기대됩니다. 단일 이미지에서 시작되는 놀라운 변화, 3DTown의 행보에 주목해 보시기 바랍니다!
Reference
[arxiv] Constructing a 3D Town from a Single Image
Published: (Updated: )
Author: Kaizhi Zheng, Ruijian Zhang, Jing Gu, Jie Yang, Xin Eric Wang
http://arxiv.org/abs/2505.15765v1