생성 이미지를 통한 사고: AI의 시각적 추론 혁신
Ethan Chern 등 연구진의 '생성 이미지를 통한 사고' 논문은 AI가 이미지를 생성하고 활용하여 시각적 추론을 수행하는 혁신적인 방법을 제시합니다. 중간 단계 시각적 사고 및 자기 비판 메커니즘을 통해 복잡한 시각적 작업에서 기존 방식 대비 최대 50%의 성능 향상을 달성하였으며, 다양한 분야에 활용될 가능성을 제시합니다.

Ethan Chern을 비롯한 연구진이 발표한 "생성 이미지를 통한 사고(Thinking with Generated Images)" 논문은 AI 분야에 혁신적인 변화를 예고합니다. 이 연구는 거대 다중 모달 모델(LMM)이 이미지를 직접 생성하고 활용하여 시각적 추론 능력을 획기적으로 향상시키는 새로운 패러다임을 제시합니다.
기존의 LMM은 고정된 이미지를 처리하거나 텍스트 기반 추론에 의존하는 한계가 있었습니다. 하지만 이번 연구는 LMM이 중간 단계 시각적 사고 과정을 스스로 생성함으로써 텍스트와 이미지 간의 자유로운 소통을 가능하게 합니다. 마치 인간처럼 생각하는 AI의 모습을 보여주는 셈입니다.
연구진은 두 가지 핵심 메커니즘을 제시합니다.
- 중간 시각적 하위 목표를 통한 시각 생성: 복잡한 시각적 작업을 작은 단위로 쪼개어, 각 단계별로 이미지를 생성하고 통합하는 방식입니다. 레고 블록을 조립하듯, AI가 이미지를 조각조각 만들어 하나의 완성된 결과물을 도출하는 것입니다.
- 자기 비판을 통한 시각 생성: AI는 먼저 가설적인 이미지를 생성하고, 이를 스스로 비판적으로 분석합니다. 부족한 점을 텍스트 기반 추론을 통해 파악하고, 이를 바탕으로 개선된 이미지를 만들어냅니다. 이는 인간의 수정 및 개선 과정과 유사합니다.
이러한 접근 방식은 시각적 추론 벤치마크에서 기존 방식 대비 최대 50%의 성능 향상을 보였습니다. 특히 복잡한 다중 객체 시나리오에서 그 효과가 두드러졌습니다.
이 기술은 단순한 기술적 발전을 넘어 다양한 분야에 광범위한 영향을 미칠 것으로 예상됩니다. 생화학자는 새로운 단백질 구조를 탐구하고, 건축가는 공간 디자인을 반복적으로 개선하며, 법의학 분석가는 범죄 현장을 재구성하고, 농구 선수는 전략적인 플레이를 구상하는 데 활용될 수 있습니다.
연구팀은 이 기술을 오픈소스로 공개(https://github.com/GAIR-NLP/thinking-with-generated-images)하여 더욱 활발한 연구와 개발을 장려하고 있습니다. 생성 이미지를 통한 사고는 AI의 시각적 추론 능력에 새로운 지평을 열고, 인간과 AI의 협력을 통해 더욱 풍부하고 창의적인 미래를 만들어갈 것입니다. 🎉
Reference
[arxiv] Thinking with Generated Images
Published: (Updated: )
Author: Ethan Chern, Zhulin Hu, Steffi Chern, Siqi Kou, Jiadi Su, Yan Ma, Zhijie Deng, Pengfei Liu
http://arxiv.org/abs/2505.22525v1