DDT: 혁신적인 탈결합 확산 트랜스포머 등장! 이미지 생성의 새로운 지평을 열다
Wang Shuai 등 연구진이 개발한 DDT(Decoupled Diffusion Transformer)는 기존 확산 트랜스포머의 한계를 극복, 향상된 성능과 속도를 달성했습니다. ImageNet 256x256 및 512x512 데이터셋에서 최고 성능을 기록했으며, 통계적 동적 프로그래밍 기법을 통해 추론 속도 또한 개선했습니다.

최근 이미지 생성 분야에서 괄목할 만한 성과를 보이고 있는 확산 트랜스포머(Diffusion Transformer)는 뛰어난 생성 품질을 자랑하지만, 긴 학습 시간과 많은 추론 단계가 필요하다는 단점을 가지고 있습니다. 이는 저주파수의 의미 정보와 고주파수의 세부 정보를 동일한 모듈에서 처리하는 방식 때문입니다. 저주파수 의미 정보를 추출하기 위해 고주파수 정보를 억제해야 하는 상황이 발생하며, 이는 최적화 과정에 어려움을 야기합니다.
Wang Shuai 박사를 비롯한 연구진은 이러한 문제를 해결하기 위해 DDT(Decoupled Diffusion Transformer) 를 제안했습니다. DDT는 의미 정보 추출을 위한 전용 조건 인코더와 고주파수 정보 디코딩을 위한 전용 속도 디코더를 분리하여 설계한 혁신적인 모델입니다. 이는 저주파수와 고주파수 정보를 독립적으로 처리하여 최적화 과정의 효율성을 높이는 동시에, 생성 품질 향상에도 기여합니다.
연구 결과는 놀랍습니다. ImageNet 256x256 데이터셋에서 DDT-XL/2 모델은 FID(Fréchet Inception Distance) 1.31을 달성하여 새로운 최고 성능을 기록했습니다. 이는 기존 확산 트랜스포머에 비해 약 4배 빠른 학습 수렴 속도를 의미합니다. ImageNet 512x512 데이터셋에서도 DDT-XL/2는 FID 1.28이라는 뛰어난 성능을 보였습니다.
더 나아가 DDT의 탈결합 구조는 인접한 잡음 제거 단계 간의 자기 조건을 공유하여 추론 속도를 향상시키는 부가적인 장점을 제공합니다. 성능 저하를 최소화하기 위해 연구진은 최적의 공유 전략을 식별하는 새로운 통계적 동적 프로그래밍 기법을 제시했습니다.
DDT는 단순히 성능 향상만을 목표로 한 것이 아닙니다. 저주파수와 고주파수 정보 처리의 분리는 이미지 생성 모델의 설계에 대한 새로운 패러다임을 제시하며, 앞으로 더욱 발전된 이미지 생성 기술 개발의 가능성을 열어줄 것으로 기대됩니다. 이 연구는 이미지 생성 분야의 획기적인 발전이자, 앞으로의 연구 방향에 중요한 시사점을 제공합니다. 더욱 정교하고 효율적인 이미지 생성 모델 개발을 위한 노력은 계속될 것이며, DDT는 그 여정에 중요한 이정표가 될 것입니다.
Reference
[arxiv] DDT: Decoupled Diffusion Transformer
Published: (Updated: )
Author: Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang
http://arxiv.org/abs/2504.05741v1