혁신적인 AI 추론 모델 LUFFY: 오프-폴리시 학습으로 한계 극복
얀젠하오 등 연구팀이 개발한 LUFFY는 오프-폴리시 추론 트레이스를 활용하여 기존 강화학습의 한계를 극복한 혁신적인 AI 추론 모델입니다. 수학 벤치마크 및 분포 외 작업에서 뛰어난 성능을 보이며, 일반화 가능한 추론 모델 개발에 새로운 가능성을 제시합니다.

최근 대규모 추론 모델(LRM)의 발전으로 다단계 추론 및 자기 반성과 같은 정교한 행동이 간단한 규칙 기반 보상을 사용하는 강화 학습(RL)을 통해 가능해졌습니다. 하지만 기존의 제로-RL 접근 방식은 본질적으로 '온-폴리시' 방식이기 때문에 모델 자체의 출력에 학습이 제한되고 초기 능력을 넘어서는 추론 능력을 습득하는 데 어려움을 겪었습니다.
얀젠하오(Jianhao Yan)를 비롯한 연구팀은 이러한 한계를 극복하기 위해 LUFFY(Learning to reason Under oFF-policY guidance) 라는 획기적인 프레임워크를 개발했습니다. LUFFY는 제로-RL에 오프-폴리시 추론 트레이스를 추가하여 온-폴리시의 제약을 뛰어넘는 새로운 가능성을 제시합니다. 훈련 중에 오프-폴리시 데모와 온-폴리시 롤아웃을 결합하여 모방과 탐색의 균형을 동적으로 조절하는 것이 핵심입니다. 특히, 규제된 중요도 샘플링을 통한 정책 형성은 혼합 정책 훈련 중 표면적이고 경직된 모방을 피하는 데 중요한 역할을 합니다.
그 결과 LUFFY는 6개의 수학 벤치마크에서 평균 7점 이상, 분포 외 작업에서 6.2점 이상의 성능 향상을 달성했습니다. 이는 모방 기반 지도 미세 조정(SFT)을 크게 능가하는 결과이며, 특히 일반화 측면에서 두드러집니다. 분석 결과 LUFFY는 효과적으로 모방할 뿐만 아니라 데모를 넘어 탐색도 수행하여 오프-폴리시 지도를 통해 일반화 가능한 추론 모델을 훈련하는 확장 가능한 경로를 제공합니다.
LUFFY의 등장은 AI 추론 모델의 발전에 새로운 이정표를 세운 것으로 평가되며, 앞으로 더욱 발전된 추론 능력을 갖춘 AI 시스템 개발에 중요한 역할을 할 것으로 기대됩니다. 이 연구는 오프-폴리시 학습의 효용성을 명확히 보여주는 동시에, AI의 추론 능력 향상에 대한 새로운 가능성을 제시하고 있습니다. 향후 연구에서는 LUFFY의 성능을 더욱 향상시키고 다양한 분야에 적용하는 연구가 지속될 것으로 예상됩니다.🎉
Reference
[arxiv] Learning to Reason under Off-Policy Guidance
Published: (Updated: )
Author: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang
http://arxiv.org/abs/2504.14945v1