Nexus-Gen: 이미지 이해, 생성, 편집의 새로운 지평을 열다


홍 장 등 연구진이 개발한 Nexus-Gen은 LLM과 확산 모델을 결합하여 이미지 이해, 생성, 편집을 통합적으로 수행하는 혁신적인 모델입니다. 2단계 학습 과정과 prefilled autoregression 전략을 통해 성능을 크게 향상시켰으며, 모든 코드와 데이터를 공개하여 AI 연구 발전에 기여하고 있습니다.

related iamge

Nexus-Gen: 이미지 이해, 생성, 편집의 새로운 지평을 열다

홍 장(Hong Zhang) 등 연구진이 발표한 논문 "Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing"은 인공지능 분야에 혁신적인 발걸음을 내딛었습니다. 이들은 단일 프레임워크 내에서 이미지 이해와 생성 능력을 통합하는 다중 모드 거대 언어 모델(MLLM)인 Nexus-Gen을 개발했습니다. 기존 오픈소스 통합 모델들이 특정 분야 전용 아키텍처에 비해 성능 격차를 보였던 것과 달리, Nexus-Gen은 LLMs의 언어 추론 능력과 확산 모델의 이미지 합성 능력을 시너지 효과를 내도록 결합했습니다.

핵심은 LLMs와 확산 모델의 임베딩 공간 정렬입니다. 연구진은 2단계 학습 과정을 통해 이를 달성했습니다. 첫 번째 단계에서는 자동 회귀 방식의 LLM이 다중 모드 입력을 조건으로 이미지 임베딩을 예측하고, 두 번째 단계에서는 비전 디코더가 이러한 임베딩으로부터 고품질 이미지를 재구성하도록 학습합니다. 흥미로운 점은, 연구진이 자동 회귀 방식 학습과 추론 단계 간의 중요한 차이점을 발견했다는 것입니다. 연속적인 임베딩 공간에서 오류가 누적되어 생성 품질이 크게 저하되는 문제를 해결하기 위해, 연속적인 임베딩 대신 위치 임베딩된 특수 토큰으로 입력 시퀀스를 미리 채우는 'prefilled autoregression' 전략을 도입했습니다. 이를 통해 생성 품질을 현저히 개선하는 데 성공했습니다.

결과적으로 Nexus-Gen은 이미지 이해, 생성, 편집 작업을 포괄적으로 처리하는 통합된 기능을 갖추게 되었습니다. 더 나아가, 연구진은 모든 모델, 데이터셋, 코드를 https://github.com/modelscope/Nexus-Gen.git 에서 공개하여, 전 분야에 걸친 추가적인 발전을 위한 기반을 마련했습니다. 이는 학계와 산업계 모두에 막대한 영향을 미칠 것으로 예상됩니다. Nexus-Gen은 단순한 기술적 진보를 넘어, 이미지 처리 및 생성 분야의 패러다임을 바꿀 잠재력을 지닌 획기적인 모델입니다.


시사점: Nexus-Gen의 성공은 단순히 새로운 모델의 개발을 넘어, LLM과 확산 모델의 통합을 위한 효과적인 전략과 자동 회귀 방식의 한계 극복을 위한 새로운 접근법을 제시한다는 점에서 큰 의미를 지닙니다. 오픈소스 공개를 통해 AI 연구의 민주화에 기여하고, 다양한 응용 분야에서의 혁신을 가속화할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing

Published:  (Updated: )

Author: Hong Zhang, Zhongjie Duan, Xingjun Wang, Yingda Chen, Yuze Zhao, Yu Zhang

http://arxiv.org/abs/2504.21356v1