관찰-R1: 동적 점진적 강화 학습으로 MLLM의 추론 능력 향상시키다
Guo, Hong, Jin 등 연구진이 개발한 Observe-R1은 인간의 학습 과정을 모방한 점진적 학습 방식과 다양한 보상 및 가중치 메커니즘을 통해 MLLM의 추론 능력을 향상시키는 새로운 프레임워크입니다. NeuraLadder 데이터셋을 활용한 실험 결과, 기존 모델들을 능가하는 성능과 향상된 추론 과정의 명확성 및 간결성을 보였습니다.

관찰-R1: 동적 점진적 강화 학습으로 MLLM의 추론 능력 향상시키다
최근 몇 년간, 인공지능 분야에서 대규모 언어 모델(LLM)의 발전은 눈부십니다. 특히, 강화 학습(RL)은 LLM의 추론 능력을 향상시키는 데 효과적인 방법으로 주목받고 있습니다. 그러나 다양한 모드의 데이터와 형식에 RL을 적용하는 데는 여전히 많은 어려움이 존재합니다.
Guo, Hong, Jin 등 연구진은 이러한 문제를 해결하기 위해 관찰-R1(Observe-R1) 이라는 새로운 프레임워크를 제시했습니다. 이는 인간의 학습 과정에서 영감을 얻은 것으로, 단순한 문제에서부터 복잡한 문제로 점진적으로 학습하는 방식을 채택하고 있습니다. 이는 마치 아이가 블록 쌓기를 처음에는 간단한 모양으로 시작하여 점차 복잡한 구조를 만들어가는 것과 같습니다.
연구진은 이를 위해 NeuraLadder 데이터셋을 구축했습니다. 이 데이터셋은 문제의 난이도와 복잡도에 따라 정렬되어 있어, RL 훈련에 효율적입니다. 단순한 문제부터 시작하여 점차 복잡한 문제를 학습함으로써 모델의 추론 능력을 효과적으로 향상시키는 것이 핵심입니다. 또한, 다양한 모드의 데이터를 효과적으로 처리하기 위해 다중 모드 형식 제약 조건을 도입하여 이미지를 주의 깊게 관찰하도록 유도하고, 더욱 명확하고 구조화된 응답을 얻도록 설계되었습니다.
더 나아가, 관찰-R1은 보너스 보상 시스템과 동적 가중치 메커니즘을 도입했습니다. 보너스 보상 시스템은 길이 제한 내에서 간결하고 정확한 답변을 내놓는 모델을 우대하며, 동적 가중치 메커니즘은 불확실하거나 중간 난이도의 문제에 더 큰 가중치를 부여하여, 학습에 더 유익한 샘플이 더 큰 영향을 미치도록 합니다.
Qwen2.5-VL-3B 및 Qwen2.5-VL-7B 모델을 사용한 실험 결과, 관찰-R1은 기존의 여러 대규모 추론 모델보다 우수한 성능을 보였습니다. 특히 추론 과정의 명확성과 간결성이 크게 향상되었다는 점이 주목할 만합니다. 추가적인 실험을 통해 제시된 전략들의 효과성과 접근 방식의 강건성 및 일반화 능력을 검증했습니다. 관찰-R1에 대한 데이터셋과 코드는 https://github.com/zrguo/Observe-R1 에서 확인할 수 있습니다.
이 연구는 단순히 성능 향상에 그치지 않고, 인간의 학습 방식을 모방하여 LLM의 추론 능력을 향상시키는 새로운 패러다임을 제시했다는 점에서 큰 의의를 지닙니다. 이는 앞으로 LLM의 발전 방향에 중요한 시사점을 제공할 것으로 기대됩니다.
Reference
[arxiv] Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning
Published: (Updated: )
Author: Zirun Guo, Minjie Hong, Tao Jin
http://arxiv.org/abs/2505.12432v1