난이도 조절로 AI 추론 능력 향상: 균형 잡힌 온라인 필터링의 놀라운 효과
배상환, 홍지우 등 연구팀의 논문은 균형 잡힌 온라인 난이도 필터링을 통해 추론 지향 강화 학습(RORL)의 효율성을 극대화하는 방법을 제시합니다. 수학 추론 벤치마크에서 기존 방식 대비 10% 이상의 성능 향상과 60% 단축된 학습 시간을 달성하며 AI 추론 능력 향상에 새로운 가능성을 열었습니다.

배상환, 홍지우, 이민영, 김한별, 남정연, 곽동현 연구팀이 발표한 논문 "Online Difficulty Filtering for Reasoning Oriented Reinforcement Learning"은 인공지능의 추론 능력 향상에 획기적인 전기를 마련했습니다. 대규모 언어 모델(LLM)의 추론 능력을 강화하는 추론 지향 강화 학습(RORL) 은 보상의 희소성 때문에 적절한 난이도의 문제 선택이 매우 중요합니다. 기존의 커리큘럼 학습은 정적인 난이도 조절에 의존했고, 최근의 온라인 필터링 방법 또한 이론적 기반이 부족했습니다.
하지만 이번 연구는 이러한 한계를 극복합니다. 연구팀은 **훈련 모델이 중간 정확도를 달성한 문제들을 실시간으로 선별하여 배치를 구성하는 '균형 잡힌 온라인 난이도 필터링'**이 RORL 훈련의 효율성을 극대화할 수 있음을 이론적, 실험적으로 증명했습니다.
핵심은 초기 정책과 최적 정책 간의 KL 발산의 하한이 표본 정확도의 분산으로 표현될 수 있다는 점을 밝혀낸 것입니다. 이를 바탕으로 균형 잡힌 필터링이 이 하한을 극대화하여 성능 향상을 이끌어낸다는 것을 보였습니다. 실제로 다섯 가지 어려운 수학 추론 벤치마크에서 놀라운 결과를 얻었습니다. AIME에서는 10% 이상, 평균적으로 4%의 성능 향상을 달성했으며, 기존 GRPO의 최대 보상을 60% 단축된 훈련 시간과 더 적은 훈련 데이터로 달성하는 샘플 효율성 및 훈련 시간 효율성 향상도 확인했습니다.
이 연구는 단순한 기술적 진보를 넘어, AI 추론 능력 향상을 위한 새로운 패러다임을 제시합니다. 중간 정확도에 초점을 맞춘 균형 잡힌 온라인 필터링은 RORL의 학습 과정을 효율적으로 최적화하고, 더욱 강력하고 효율적인 AI 시스템 개발에 중요한 기여를 할 것으로 기대됩니다. 앞으로 이러한 연구가 AI 분야의 다양한 문제 해결에 적용되어, 더욱 발전된 AI 기술을 만나볼 수 있기를 기대합니다.
Reference
[arxiv] Online Difficulty Filtering for Reasoning Oriented Reinforcement Learning
Published: (Updated: )
Author: Sanghwan Bae, Jiwoo Hong, Min Young Lee, Hanbyul Kim, JeongYeon Nam, Donghyun Kwak
http://arxiv.org/abs/2504.03380v1