DDT: 분리된 확산 트랜스포머가 이미지 생성의 새로운 지평을 열다
Wang Shuai 등 연구진이 개발한 DDT(Decoupled Diffusion Transformer)는 기존 확산 트랜스포머의 한계를 극복하여 이미지 생성 품질과 속도를 크게 향상시켰습니다. 분리된 아키텍처와 동적 프로그래밍 기법을 통해 ImageNet 데이터셋에서 최첨단 성능을 달성했습니다.

최근 괄목할 만한 성과를 보이고 있는 확산 트랜스포머(Diffusion Transformer)는 뛰어난 이미지 생성 품질을 자랑하지만, 긴 학습 시간과 많은 추론 단계가 필요하다는 단점을 가지고 있었습니다. Wang Shuai 등 연구진은 이러한 문제점을 해결하기 위해 새로운 아키텍처, DDT(Decoupled Diffusion Transformer) 를 제안했습니다.
기존 확산 트랜스포머는 각 잡음 제거 단계에서 잡음이 포함된 입력을 인코딩하여 저주파수의 의미론적 구성요소를 추출하고, 동일한 모듈로 고주파수 구성요소를 디코딩하는 방식을 사용합니다. 하지만 이는 의미론적 인코딩과 고주파수 디코딩 간의 상충 관계를 야기하는 최적화 문제를 발생시킵니다. 저주파수 의미를 인코딩하기 위해서는 고주파수 구성요소를 줄여야 하기 때문입니다.
DDT는 이러한 문제를 해결하기 위해 의미 추출을 위한 전용 조건부 인코더와 특수화된 속도 디코더를 도입하여 저주파수와 고주파수 성분을 분리하여 처리하는 '분리된' 설계를 채택했습니다. 연구 결과, 모델 크기가 증가함에 따라 더 큰 인코더가 성능 향상에 기여하는 것으로 나타났습니다.
실험 결과는 놀라웠습니다. ImageNet 256x256 데이터셋에서 DDT-XL/2 모델은 1.31 FID라는 새로운 최첨단 성능을 달성했으며, 이는 기존 확산 트랜스포머에 비해 4배나 빠른 학습 수렴 속도를 의미합니다. ImageNet 512x512 데이터셋에서도 1.28 FID라는 최고 성능을 기록했습니다.
더 나아가, DDT의 분리된 아키텍처는 인접한 잡음 제거 단계 간의 자기 조건을 공유함으로써 추론 속도를 향상시키는 부가적인 이점을 제공합니다. 성능 저하를 최소화하기 위해 연구진은 최적의 공유 전략을 식별하는 새로운 통계적 동적 프로그래밍 접근 방식을 제안했습니다.
DDT는 단순히 이미지 생성의 속도만 향상시킨 것이 아니라, 품질과 속도를 동시에 획기적으로 개선함으로써 이미지 생성 분야에 새로운 이정표를 세웠습니다. 향후 DDT를 기반으로 더욱 발전된 이미지 생성 기술이 등장할 것으로 기대됩니다.
Reference
[arxiv] DDT: Decoupled Diffusion Transformer
Published: (Updated: )
Author: Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang
http://arxiv.org/abs/2504.05741v2