GRIT: 이미지로 사고하는 MLLM 훈련의 혁신
본 기사는 Yue Fan 등 연구진이 개발한 GRIT (Grounded Reasoning with Images and Texts)에 대해 소개합니다. GRIT은 거대 언어 모델(MLLM)이 이미지를 활용하여 추론하는 능력을 향상시키는 혁신적인 방법으로, 기존 모델의 한계를 극복하고 데이터 효율성을 극대화하는 강화 학습 기반 알고리즘을 사용합니다. GRIT의 성공적인 결과는 이미지 기반 추론 기술의 새로운 지평을 열 것으로 기대됩니다.

이미지를 보고 생각하는 AI의 등장: GRIT
최근 몇 년간 인공지능 분야에서 가장 주목받는 분야 중 하나는 바로 거대 언어 모델(MLLM)입니다. 하지만 MLLM은 주로 텍스트 기반으로 동작하며, 이미지 정보를 효과적으로 활용하는 데는 한계가 있었습니다. 이러한 한계를 극복하고자, Yue Fan 등 연구진이 개발한 GRIT (Grounded Reasoning with Images and Texts) 는 MLLM이 이미지를 보고 추론하는 능력을 향상시키는 획기적인 방법을 제시합니다.
기존 방식의 한계 극복: 시각적 정보의 명시적 통합
기존의 시각-언어적 추론 모델들은 대부분 자연어만을 사용하여 추론 과정을 생성했습니다. 이는 시각 정보가 추론 과정에 명확하게 반영되지 못하는 한계를 가지고 있었습니다. GRIT은 이러한 한계를 극복하기 위해 이미지의 경계 상자 좌표(bounding box coordinates) 를 추론 과정에 직접적으로 통합하는 획기적인 방법을 제시합니다. 이는 모델이 추론 과정에서 어떤 이미지 영역을 참조하는지 명확하게 보여줍니다.
강화학습 기반 GRPO-GR 알고리즘: 데이터 효율성의 극대화
GRIT은 강화 학습(Reinforcement Learning) 기반의 GRPO-GR 알고리즘을 사용합니다. GRPO-GR은 최종 답변의 정확도와 추론 과정의 형식에 초점을 맞춘 강력한 보상 체계를 통해, 추론 과정에 대한 별도의 주석 데이터나 경계 상자 라벨이 필요 없도록 설계되었습니다. 이는 GRIT의 가장 큰 장점 중 하나인 뛰어난 데이터 효율성으로 이어집니다. 실제로 GRIT은 기존 데이터셋에서 20개의 이미지-질문-답변 셋만으로도 효과적인 학습이 가능합니다.
GRIT의 성과: 일관성 있고 시각적으로 기반한 추론 체인 생성
포괄적인 평가 결과, GRIT은 MLLM이 일관성 있고 시각적으로 기반한 추론 체인을 생성하는 데 매우 효과적인 것으로 나타났습니다. 이는 추론 능력과 시각적 기반 능력의 성공적인 통합을 보여주는 결과입니다.
미래 전망: 이미지 기반 추론 기술의 새로운 지평
GRIT의 등장은 MLLM의 시각적 추론 능력을 한 단계 끌어올렸을 뿐만 아니라, 의료 영상 분석, 자율 주행, 로봇 공학 등 다양한 분야에 혁신적인 변화를 가져올 것으로 기대됩니다. 향후 GRIT의 발전과 이를 활용한 응용 연구가 더욱 활발해질 것으로 예상됩니다. 더욱 정교하고 효율적인 이미지 기반 추론 기술의 개발이 기대되는 시점입니다.
Reference
[arxiv] GRIT: Teaching MLLMs to Think with Images
Published: (Updated: )
Author: Yue Fan, Xuehai He, Diji Yang, Kaizhi Zheng, Ching-Chen Kuo, Yuting Zheng, Sravana Jyothi Narayanaraju, Xinze Guan, Xin Eric Wang
http://arxiv.org/abs/2505.15879v1