혁신적인 추론 모델 LUFFY: 오프-폴리시 강화학습으로 한계 뛰어넘다


LUFFY는 오프-폴리시 강화학습을 활용하여 기존 대규모 추론 모델의 한계를 극복한 혁신적인 프레임워크입니다. 정규화된 중요도 샘플링 기법을 통해 모방과 탐색의 균형을 유지하며, 다양한 수학 벤치마크에서 우수한 성능과 일반화 능력을 보여주었습니다.

related iamge

최근 대규모 추론 모델(LRM)의 발전은 눈부십니다. 단순한 규칙 기반 보상을 사용하는 강화학습(RL)을 통해 다단계 추론 및 자기 반성과 같은 정교한 행동이 가능해졌죠. 하지만 기존의 제로-RL 접근 방식은 본질적으로 '온-폴리시' 방식이어서 모델 자체의 출력에 학습이 제한되고, 초기 능력을 넘어서는 추론 능력을 얻는 데 어려움을 겪었습니다.

이러한 한계를 극복하기 위해 등장한 것이 바로 LUFFY (Learning to reason Under oFF-policy guidance) 입니다. Yan Jianhao 등 연구진이 개발한 LUFFY는 제로-RL에 '오프-폴리시' 추론 트레이스를 추가하는 획기적인 프레임워크입니다. LUFFY는 학습 과정에서 오프-폴리시 데모와 온-폴리시 롤아웃을 결합하여 모방과 탐색의 균형을 동적으로 조절합니다.

특히, 정규화된 중요도 샘플링을 통한 정책 형성이라는 혁신적인 기법을 통해 혼합 정책 학습 중 발생할 수 있는 피상적이고 경직된 모방을 효과적으로 방지합니다. 이는 LUFFY가 단순히 기존 데이터를 모방하는 것을 넘어, 데이터를 넘어선 새로운 추론 능력을 탐색할 수 있게 해줍니다.

그 결과는 놀랍습니다. LUFFY는 6가지 수학 벤치마크에서 평균 +7.0 이상의 성능 향상을 달성했으며, 분포 외(out-of-distribution) 작업에서는 +6.2점 이상의 우위를 보였습니다. 특히 일반화 능력 측면에서 기존의 모방 기반 지도 미세 조정(SFT) 방식을 크게 능가합니다.

LUFFY는 단순한 모방을 넘어 실제로 탐색을 통해 학습하는 것을 분석을 통해 확인되었으며, 이는 오프-폴리시 지도를 통해 일반화 가능한 추론 모델을 훈련하는 확장 가능한 경로를 제공합니다. 이는 인공지능 분야, 특히 추론 모델 개발에 있어 중요한 진전으로 평가받고 있으며, 향후 더욱 발전된 AI 시스템 개발에 기여할 것으로 기대됩니다. LUFFY의 등장은 AI 연구의 새로운 지평을 열었다고 해도 과언이 아닙니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Learning to Reason under Off-Policy Guidance

Published:  (Updated: )

Author: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang

http://arxiv.org/abs/2504.14945v2