혁신적인 AI 추론 모델 LUFFY: 오프-폴리시 학습으로 한계 극복
얀젠하오 등 8명의 연구원이 개발한 LUFFY는 오프-폴리시 추론 트레이스를 활용하여 기존 온-폴리시 RLVR의 한계를 극복한 혁신적인 AI 추론 모델입니다. 수학 벤치마크 및 분포 외 작업에서 우수한 성능을 보이며, AI 추론 분야의 새로운 가능성을 제시합니다.

최근 대규모 추론 모델(LRM)의 발전은 놀랍습니다. 복잡한 다단계 추론과 자기 반성과 같은 정교한 행동이 검증 가능한 보상을 사용한 강화 학습(RLVR)을 통해 나타날 수 있다는 사실이 입증되었죠. 하지만 기존 RLVR 접근 방식은 본질적으로 '온-폴리시' 방식이었습니다. 이는 모델이 자신의 출력에만 학습을 제한하여 초기 능력을 넘어서는 추론 능력을 습득하는 데 어려움을 겪는다는 것을 의미합니다.
이러한 한계를 극복하기 위해 등장한 것이 바로 LUFFY (Learning to reason Under OFF-policy guidance) 입니다. 얀젠하오(Jianhao Yan) 등 8명의 연구원이 개발한 LUFFY는 RLVR에 오프-폴리시 추론 트레이스를 추가하는 획기적인 프레임워크입니다. LUFFY는 훈련 중에 오프-폴리시 데모와 온-폴리시 롤아웃을 결합하여 모방과 탐색의 균형을 동적으로 조절합니다.
구체적으로 LUFFY는 이론적으로 보장된 수렴 속도를 가진 혼합 정책 GRPO 프레임워크와 정규화된 중요도 샘플링을 결합하여 혼합 정책 훈련 중에 표면적이고 경직된 모방을 피합니다. 이는 단순히 기존 데이터를 모방하는 것이 아니라, 실제 추론 능력 향상에 초점을 맞춘다는 것을 의미합니다.
결과는 놀라웠습니다. LUFFY는 기존 RLVR 방법에 비해 여섯 가지 수학 벤치마크에서 평균 +6.4 이상의 성능 향상을 달성했습니다. 더욱이 분포 외 작업에서도 +6.2 점 이상의 이점을 보였습니다. 가장 중요한 것은 온-폴리시 RLVR이 완전히 실패하는 시나리오에서도 약한 모델을 성공적으로 훈련했다는 점입니다. 이는 LUFFY가 온-폴리시 RLVR의 근본적인 한계를 뛰어넘고 오프-폴리시 지도의 잠재력을 보여주는 강력한 증거입니다.
LUFFY의 등장은 AI 추론 모델 발전에 중요한 전환점을 마련했습니다. 오프-폴리시 학습을 통해 더욱 강력하고 유연한 추론 능력을 갖춘 AI 시스템의 개발에 대한 기대감을 높여줍니다. 앞으로 LUFFY가 다양한 분야에서 어떻게 활용될지, 그리고 AI 연구에 어떤 영향을 미칠지 주목할 필요가 있습니다.
Reference
[arxiv] Learning to Reason under Off-Policy Guidance
Published: (Updated: )
Author: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang
http://arxiv.org/abs/2504.14945v3