NoiseAR: 확산 모델의 혁신, 자동회귀적 초기 노이즈 사전 모델 등장!
홍콩과기대 연구팀이 개발한 NoiseAR은 자동회귀적 초기 노이즈 사전을 사용하여 기존 확산 모델의 한계를 극복하고, 텍스트 프롬프트에 더욱 충실하고 일관성 있는 고품질 이미지 생성을 가능하게 합니다. 확률적 프레임워크와의 통합 가능성도 높아 향후 AI 이미지 생성 분야에 큰 영향을 미칠 것으로 예상됩니다.

AI 이미지 생성의 새로운 지평을 열다: NoiseAR
최근 괄목할 만한 성과를 보이고 있는 AI 이미지 생성 분야에서, 홍콩과기대(HKUST) 연구팀이 발표한 NoiseAR 논문이 큰 주목을 받고 있습니다. 이 논문은 기존 확산 모델(Diffusion Models)의 한계를 뛰어넘는 혁신적인 방법을 제시하여, 더욱 정교하고 제어 가능한 이미지 생성을 가능하게 합니다.
기존 확산 모델의 한계: 단순한 초기 상태
기존 확산 모델들은 이미지 생성 과정을 점진적인 잡음 제거(denoising)로 설명합니다. 하지만 초기 단계의 잡음은 단순히 무작위 분포(예: 등방성 가우시안)에서 샘플링되는데, 이는 구조가 부족하고 외부 제어가 어렵다는 단점을 가지고 있었습니다. 최근 연구들은 초기 단계에 제어 가능성을 부여하려는 시도를 보였지만, 결정론적 또는 휴리스틱 접근 방식에 의존하여 최적이 아니며 표현력이 부족하고 확장성이 떨어지는 문제점이 있었습니다.
NoiseAR: 자동회귀적 초기 노이즈 사전 모델의 등장
NoiseAR은 이러한 문제를 해결하기 위해 자동회귀적 초기 노이즈 사전(AutoRegressive Initial Noise Prior) 이라는 획기적인 방법을 제시합니다. NoiseAR은 정적인 무작위 분포 대신, 동적이고 제어 가능한 초기 노이즈 분포를 학습합니다. 공간 패치 또는 토큰에 대한 자동회귀 확률 모델링으로 초기 노이즈 사전의 파라미터 생성을 수행함으로써, 복잡한 공간적 의존성을 포착하고 초기 상태에 학습된 구조를 도입합니다.
핵심은 바로 조건부(conditional) 설계입니다. 텍스트 프롬프트를 통해 학습된 사전에 직접적으로 영향을 미쳐, 확산 초기화를 미세 조정할 수 있습니다. 이는 텍스트 설명에 더욱 충실하고 일관성 있는 이미지 생성을 가능하게 합니다.
NoiseAR의 장점: 향상된 품질과 확장성
실험 결과, NoiseAR은 기존 방식보다 훨씬 향상된 샘플 품질과 조건부 입력과의 일관성을 보여주었습니다. 또한 확률적 공식화를 통해 마르코프 의사결정 과정(Markov Decision Processes) 및 강화 학습(Reinforcement Learning)과 같은 확률적 프레임워크와의 원활한 통합을 지원합니다. 이는 향후 더욱 복잡하고 다양한 응용 분야로의 확장 가능성을 시사합니다.
Github 링크: https://github.com/HKUST-SAIL/NoiseAR/ 에서 코드를 확인할 수 있습니다.
결론: AI 이미지 생성의 새로운 가능성
NoiseAR은 AI 이미지 생성 분야에 새로운 가능성을 제시합니다. 더욱 정교하고 제어 가능한 이미지 생성을 통해, 다양한 분야에서 혁신적인 응용이 기대됩니다. 향후 연구를 통해 NoiseAR이 어떻게 발전하고 적용될지 주목할 필요가 있습니다.
Reference
[arxiv] NoiseAR: AutoRegressing Initial Noise Prior for Diffusion Models
Published: (Updated: )
Author: Zeming Li, Xiangyue Liu, Xiangyu Zhang, Ping Tan, Heung-Yeung Shum
http://arxiv.org/abs/2506.01337v1