중국 연구진, R1-Zero 유사 훈련으로 시각-공간 추론 능력 향상시킨 MLLM 개발


중국 연구진이 R1-Zero 유사 훈련을 통해 MLLM의 시각-공간 추론 능력을 획기적으로 향상시켰습니다. 소규모 모델에서도 기존 방식을 뛰어넘는 성능을 달성하여 향후 AI 에이전트의 발전에 크게 기여할 것으로 예상됩니다.

related iamge

중국 연구진, 놀라운 성과 발표: R1-Zero 기반 시각-공간 추론 능력 향상

중국 연구진이 멀티모달 대형 언어 모델(MLLM)의 시각-공간 추론 능력을 획기적으로 향상시키는 새로운 방법을 개발했습니다. Liao Zhenyi 등 7명의 연구자는 최근 논문 'R1-Zero-Like Training을 통한 향상된 시각-공간 추론'에서 R1-Zero 유사 훈련 기법을 활용하여 놀라운 성과를 거두었습니다.

기존 한계 극복: CoT 프롬프트의 무력함

연구진은 우선 소규모에서 중규모의 Qwen2-VL 모델은 기존의 사고 과정(Chain of Thought, CoT) 프롬프트만으로는 시각-공간 추론 능력을 제대로 발휘하지 못한다는 사실을 밝혀냈습니다. 이는 기존 MLLM 연구의 한계를 명확히 보여주는 중요한 발견입니다. 이러한 한계를 극복하기 위해 연구진은 새로운 훈련 방법을 모색하게 됩니다.

혁신적인 해결책: GRPO 훈련과 VSI-100k 데이터셋

연구진은 DeepSeek-R1-Zero를 바탕으로 GRPO(Generative Replay with Preference Optimization) 훈련을 도입하고, 신중하게 구성된 VSI-100k 데이터셋을 활용했습니다. 특히, GRPO 훈련 과정에서 KL 페널티의 중요성을 강조하며, 작은 값이라도 KL 페널티를 유지하는 것이 성능 향상에 필수적임을 밝혔습니다. 이는 단순히 모델의 성능 향상뿐 아니라, 훈련 과정 자체에 대한 깊이 있는 이해를 보여줍니다.

놀라운 결과: 압도적인 성능 향상

단 120 GPU 시간이라는 상대적으로 짧은 훈련 시간에도 불구하고, 연구진은 Qwen2-VL-2B 모델을 기반으로 GPT-4o를 능가하는 vsGRPO-2B 모델을 개발하는 데 성공했습니다. 더 나아가, Qwen2-VL-7B 모델을 기반으로 개발된 vsGRPO-7B 모델은 최고 수준의 오픈소스 모델인 LLaVA-NeXT-Video-72B와 비슷한 성능을 달성했습니다. 이러한 결과는 R1-Zero 유사 훈련 기법의 효율성과 잠재력을 명확히 보여줍니다.

객관적인 비교 분석: 경쟁 모델 압도

연구진은 vsGRPO 모델을 지도 학습 및 직접 선호도 최적화 기반 모델들과 비교 분석하여 그 우수성을 객관적으로 입증했습니다. vsGRPO 모델이 다른 기존 모델들을 압도하는 성능을 보여줌으로써, 새로운 훈련 기법의 실질적인 효용성을 확인했습니다.

미래 전망: 더욱 발전된 시각-공간 추론 기술 기대

본 연구는 MLLM의 시각-공간 추론 능력 향상에 새로운 지평을 열었습니다. 연구진은 곧 코드와 데이터셋을 공개할 예정이며, 이를 통해 더 많은 연구자들이 이 기술을 발전시키고 다양한 응용 분야에 활용할 수 있을 것으로 기대됩니다. 앞으로 시각-공간 추론 기술의 발전은 AI 에이전트의 물리적 세계에서의 활동 능력을 크게 향상시키는 데 중요한 역할을 할 것입니다. 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Improved Visual-Spatial Reasoning via R1-Zero-Like Training

Published:  (Updated: )

Author: Zhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng

http://arxiv.org/abs/2504.00883v2