텍스트만으로 3D 실내 장면 생성? DirectLayout 프레임워크 등장!


본 기사는 텍스트 설명만으로 3D 실내 장면 레이아웃을 생성하는 DirectLayout 프레임워크에 대한 내용을 다룹니다. LLM 기반 공간 추론과 CoT 활성화를 통해 기존 방법들의 한계를 극복하고, 높은 의미적 일관성과 일반화 능력, 물리적 타당성을 달성했습니다.

related iamge

텍스트만으로 3D 실내 장면을 디자인하다: DirectLayout의 혁신

현실적인 3D 실내 장면 합성은 AI와 디지털 콘텐츠 제작 분야에서 매우 중요합니다. 이 작업은 크게 두 가지 하위 작업으로 나뉘는데, 바로 객체 생성레이아웃 생성입니다. 최근 생성 모델들은 객체 수준의 품질과 제어 기능을 크게 향상시켰지만, 레이아웃 생성은 데이터셋의 한계로 인해 여전히 어려움을 겪고 있습니다.

기존의 방법들은 데이터셋에 과적합되거나, 유연성을 희생하는 사전 정의된 제약 조건에 의존하여 수치적 레이아웃을 최적화하는 데 그쳤습니다. 결과적으로, 개방형 어휘(open-vocabulary)를 가지면서 세밀한 사용자 지시 사항과 일치하는 장면을 생성하는 데 어려움을 겪었습니다.

Xingjian Ran 등 연구원들이 개발한 DirectLayout은 이러한 문제점을 해결하기 위해 등장했습니다. DirectLayout은 대규모 언어 모델(LLM) 의 일반화된 공간 추론 능력을 활용하여 텍스트 설명으로부터 직접 3D 레이아웃을 생성하는 프레임워크입니다.

DirectLayout은 다음과 같은 세 단계로 구성됩니다.

  1. 조감도(Bird's-Eye View, BEV) 레이아웃 생성: LLM을 사용하여 텍스트 설명으로부터 2D 레이아웃을 생성합니다.
  2. 3D 공간 상승: 2D 레이아웃을 3D 공간으로 변환합니다.
  3. 객체 배치 개선: 생성된 3D 레이아웃의 객체 배치를 개선하여 더욱 현실적인 장면을 생성합니다.

특히, DirectLayout은 Chain-of-Thought(CoT) 활성화3D-Front 데이터셋을 활용하여 모델이 객체 배치의 기본 원리를 이해하고 명시적인 공간 추론을 수행하도록 합니다. 또한, CoT-Grounded Generative Layout Reward를 설계하여 일반화 및 공간 계획 능력을 향상시켰습니다. 추론 과정에서는 반복적 자산-레이아웃 정렬(Iterative Asset-Layout Alignment) 을 통해 자산과 레이아웃 간의 불일치를 해결합니다.

광범위한 실험 결과, DirectLayout은 놀라운 의미적 일관성, 일반화 능력, 그리고 물리적 타당성을 달성하는 것으로 나타났습니다. 이는 텍스트 기반 3D 실내 장면 생성 분야에 중요한 진전을 의미하며, 엠보디드 AI와 디지털 콘텐츠 생성 분야에 큰 영향을 미칠 것으로 기대됩니다. 앞으로 DirectLayout의 발전과 다양한 응용 분야에 대한 연구가 더욱 활발해질 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via Spatial Reasoning

Published:  (Updated: )

Author: Xingjian Ran, Yixuan Li, Linning Xu, Mulin Yu, Bo Dai

http://arxiv.org/abs/2506.05341v1