Nexus-Gen: 이미지 이해, 생성, 편집의 새로운 지평을 연 통합 모델
Nexus-Gen은 LLM과 확산 모델을 통합하여 이미지 이해, 생성, 편집을 수행하는 혁신적인 모델입니다. 2단계 학습 과정과 사전 채우기 자기회귀 전략을 통해 기존 모델의 한계를 극복하고, 모든 자원을 공개하여 연구 발전에 기여합니다.

혁신적인 통합 AI 모델, Nexus-Gen 등장
최근 몇 년간 인공지능 분야에서 가장 주목받는 연구 분야 중 하나는 바로 통합 다중 모달 대규모 언어 모델(MLLM) 입니다. 이 모델은 언어 이해와 이미지 생성 능력을 하나의 프레임워크로 통합하여 다양한 작업을 수행하는 것을 목표로 합니다. 하지만 기존의 오픈소스 통합 모델들은 특정 영역에 특화된 아키텍처에 비해 성능 면에서 부족한 점을 보였습니다.
이러한 한계를 극복하기 위해 등장한 모델이 바로 Nexus-Gen입니다. 홍 장(Hong Zhang) 등 연구진이 개발한 Nexus-Gen은 LLM의 언어 추론 능력과 확산 모델의 이미지 합성 능력을 시너지 효과를 내도록 결합한 획기적인 모델입니다. 단순한 통합을 넘어, LLM과 확산 모델의 임베딩 공간을 정렬하는 것이 핵심입니다.
연구진은 이를 위해 두 단계의 학습 과정을 거쳤습니다. 첫 번째 단계는 자기회귀 LLM이 다중 모달 입력을 조건으로 이미지 임베딩을 예측하도록 학습하는 것이고, 두 번째 단계는 비전 디코더가 이러한 임베딩으로부터 고품질 이미지를 재구성하도록 학습하는 것입니다. 특히, 자기회귀 방식의 학습과 추론 단계 간의 차이로 인해 발생하는 오류 누적 문제를 해결하기 위해 **'사전 채우기 자기회귀 전략'**을 도입, 연속적인 임베딩 대신 위치 임베딩 특수 토큰을 사용하여 이 문제를 해결했습니다.
이러한 혁신적인 접근 방식을 통해 Nexus-Gen은 이미지 이해, 생성, 편집 작업을 종합적으로 처리하는 통합된 능력을 갖추게 되었습니다. 더욱 놀라운 점은 모든 모델, 데이터셋, 그리고 코드가 GitHub(https://github.com/modelscope/Nexus-Gen.git)를 통해 공개되었다는 것입니다. 이는 연구 분야의 발전에 크게 기여할 것으로 기대됩니다.
Nexus-Gen은 단순한 기술적 발전을 넘어, 이미지 관련 AI 기술의 새로운 가능성을 열었습니다. 앞으로 Nexus-Gen을 기반으로 한 다양한 응용 프로그램과 후속 연구들이 등장할 것으로 예상되며, 이를 통해 우리의 삶을 더욱 풍요롭게 만들어줄 것입니다.
Reference
[arxiv] Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing
Published: (Updated: )
Author: Hong Zhang, Zhongjie Duan, Xingjun Wang, Yuze Zhao, Weiyi Lu, Zhipeng Di, Yixuan Xu, Yingda Chen, Yu Zhang
http://arxiv.org/abs/2504.21356v2