의미를 아는 AI 이미지 생성: 래스터 스캔의 한계를 넘어서
본 논문은 기존의 래스터 스캔 방식의 한계를 극복하기 위해 의미를 인식하는 패치 생성 순서를 학습하는 새로운 자동회귀 이미지 생성 방법을 제시합니다. 임의의 순서로 패치를 생성하는 모델을 훈련하고, 생성 과정에서 추출한 순서 정보를 활용하여 모델을 미세 조정함으로써 이미지 품질을 향상시키는 결과를 보여줍니다.

최근 자동회귀 패치 기반 이미지 생성 모델이 이미지 품질과 확장성 면에서 경쟁력 있는 결과를 보여주고 있습니다. 비전-언어 모델과의 통합 및 확장도 용이하죠. 하지만 자동회귀 모델은 패치 생성을 위한 정의된 순서가 필요합니다. 텍스트 생성에서는 단어의 순서가 자연스러운 순서를 제공하지만, 이미지 생성에는 고유한 생성 순서가 존재하지 않습니다.
기존에는 래스터 스캔 순서(왼쪽 상단에서 오른쪽 하단으로)가 자동회귀 이미지 생성 모델을 안내했습니다. 하지만 Rishav Pramanik 등 8명의 연구자들은 이 순서가 최적이 아니라고 주장합니다. 예를 들어, 일몰을 묘사하는 시각적 설명을 조건으로 할 때, 구름의 색은 태양의 색에 의존하지만, 기존 모델은 태양보다 구름을 먼저 생성할 수 있습니다. 이는 이미지 내용의 인과관계를 무시하기 때문입니다.
이 연구에서는 두 가지 핵심적인 발견을 제시합니다. 첫째, 임의의 순서로 패치를 생성하는 모델을 훈련하여 생성 과정에서 각 패치의 내용과 위치(순서)를 추론할 수 있습니다. 둘째, 추출된 순서를 사용하여 임의 순서 모델을 미세 조정하여 더 나은 품질의 이미지를 생성합니다. 두 개의 데이터셋에 대한 실험을 통해 기존의 래스터 스캔 방식보다 더 나은 이미지를 생성하며, 훈련 비용은 비슷하고 추가적인 주석이 필요하지 않음을 보여줍니다.
이는 단순한 기술적 진보를 넘어, AI가 이미지의 의미를 더욱 잘 이해하고 생성할 수 있도록 하는 중요한 발걸음입니다. 이는 향후 AI 기반 이미지 생성 기술의 발전에 큰 영향을 미칠 것으로 예상됩니다. 단순히 이미지를 생성하는 것을 넘어, 이미지의 의미와 인과관계를 이해하는 AI 시대가 눈앞에 다가왔습니다. 하지만 이 기술의 윤리적 함의에 대한 지속적인 논의가 필요합니다. 잘못 사용될 경우, 가짜 이미지 생성 등의 문제가 발생할 수 있기 때문입니다.
Reference
[arxiv] Distilling semantically aware orders for autoregressive image generation
Published: (Updated: )
Author: Rishav Pramanik, Antoine Poupon, Juan A. Rodriguez, Masih Aminbeidokhti, David Vazquez, Christopher Pal, Zhaozheng Yin, Marco Pedersoli
http://arxiv.org/abs/2504.17069v1