MindOmni: 시각 언어 모델의 추론 생성 능력을 깨우다


MindOmni는 강화학습 기반의 추론 생성 알고리즘 RGPO를 활용하여 시각 및 언어 데이터를 통합적으로 처리하는 다중 모달 대규모 언어 모델입니다. 수학적 추론을 포함한 다양한 벤치마크에서 우수한 성능을 입증했으며, 공개된 코드를 통해 누구나 활용 가능합니다.

related iamge

텍스트만으로는 부족하다: 시각과 언어의 만남, MindOmni

최근 텍스트-이미지 생성 시스템은 복잡한 추론 작업과 다양한 형태의 입력 데이터를 처리하는 데 어려움을 겪고 있습니다. 이러한 한계를 극복하기 위해 등장한 것이 바로 MindOmni입니다. Xiao Yicheng 등 10명의 연구진이 개발한 MindOmni는 강화학습 기반의 추론 생성을 통해 텍스트와 이미지를 통합적으로 이해하고 생성하는 획기적인 다중 모달 대규모 언어 모델입니다.

3단계 학습 전략: 강화학습의 힘

MindOmni의 핵심은 세 단계의 학습 전략에 있습니다.

  1. 통합된 시각-언어 모델 설계: 디코더 전용 확산 모듈을 사용하여 텍스트와 이미지 데이터를 효율적으로 처리합니다.
  2. 지도 학습 기반 미세 조정: Chain-of-Thought (CoT) 지시 데이터를 활용하여 모델의 추론 능력을 향상시킵니다.
  3. RGPO 알고리즘 도입: 연구진이 새롭게 제안한 Reasoning Generation Policy Optimization (RGPO) 알고리즘은 다중 모달 피드백을 통해 정책 업데이트를 효과적으로 유도하여, 추론 생성 능력을 크게 향상시킵니다. 이는 마치 인간의 학습 과정처럼, 시행착오를 통해 더욱 정교한 추론 능력을 길러내는 과정이라 할 수 있습니다.

놀라운 성능: 수학적 추론까지 가능하다!

MindOmni는 다양한 이해 및 생성 벤치마크에서 기존 모델들을 뛰어넘는 성능을 보여주었습니다. 특히, 수학적 추론과 관련된 지시사항에서 뛰어난 성능을 선보이며, 단순한 이미지 생성을 넘어 복잡한 문제 해결 능력까지 갖추었음을 입증했습니다. 이는 AI 모델의 추론 능력 발전에 있어 중요한 이정표가 될 것으로 예상됩니다.

공개된 코드: 누구나 MindOmni를 경험할 수 있다!

더욱 놀라운 점은, MindOmni의 모든 코드가 https://github.com/EasonXiao-888/MindOmni 에서 공개되었다는 것입니다. 이를 통해 연구자들은 MindOmni를 직접 활용하고 연구에 활용할 수 있으며, AI 기술 발전에 더욱 적극적으로 기여할 수 있게 되었습니다.

MindOmni는 시각-언어 모델의 발전에 새로운 가능성을 제시하며, 앞으로 더욱 정교하고 복잡한 추론 작업에도 활용될 수 있을 것으로 기대됩니다. 이 기술의 발전이 우리의 삶을 어떻게 변화시킬지, 기대하며 지켜볼 필요가 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

Published:  (Updated: )

Author: Yicheng Xiao, Lin Song, Yukang Chen, Yingmin Luo, Yuxin Chen, Yukang Gan, Wei Huang, Xiu Li, Xiaojuan Qi, Ying Shan

http://arxiv.org/abs/2505.13031v1