놀라운 반전! 강화학습, 정말 LLM의 추론 능력을 향상시킬까?


본 연구는 강화학습(RL)이 대규모 언어 모델(LLM)의 추론 능력을 향상시킨다는 기존의 믿음에 도전합니다. pass@k 지표를 활용한 실험 결과, RL은 새로운 추론 패턴을 생성하지 않고 기존 모델의 능력을 효율적으로 활용하는 것으로 나타났습니다. 증류 기법과의 비교를 통해 LLM 추론 능력 향상을 위한 새로운 패러다임의 필요성을 제시합니다.

related iamge

강화학습의 한계: LLM 추론 능력 향상의 신화는 과연 사실일까?

최근 몇 년 동안, 인공지능 분야에서 강화학습과 검증 가능한 보상(RLVR) 을 이용한 대규모 언어 모델(LLM)의 추론 능력 향상 연구가 큰 주목을 받았습니다. 특히 수학 및 프로그래밍 문제 해결 능력 향상에 괄목할 만한 성과를 거두며, RLVR이 LLM이 지속적으로 자기 개선을 통해 기존 모델의 능력을 뛰어넘는 새로운 추론 능력을 습득할 수 있게 한다는 믿음이 널리 퍼져 있었습니다.

하지만 양월 등 연구진의 최근 연구는 이러한 통념에 대한 강력한 반박을 제시합니다. 연구진은 다양한 모델과 벤치마크를 사용하여, pass@k 지표 (k 값을 크게 설정) 를 측정함으로써 모델의 추론 능력의 경계를 면밀히 조사했습니다. 그 결과는 놀라웠습니다. RL 훈련을 받은 모델은 작은 k 값(예: k=1)에서는 기반 모델보다 성능이 우수했지만, 큰 k 값에서는 기반 모델이 RL 모델과 비슷하거나 더 높은 pass@k 점수를 달성했습니다.

이는 RL 훈련이 근본적으로 새로운 추론 패턴을 이끌어내지 못하며, RL 훈련된 모델이 생성하는 추론 경로는 이미 기반 모델의 샘플링 분포에 포함되어 있음을 시사합니다. 즉, RL 훈련된 모델에서 나타나는 대부분의 추론 능력은 이미 기반 모델이 가지고 있던 능력이었던 것입니다. 연구진은 RL 훈련이 보상을 얻을 가능성이 높은 경로를 향해 모델의 출력 분포를 편향시켜 정답을 더 효율적으로 샘플링하게 함으로써 성능을 향상시킨다는 것을 추가 분석을 통해 밝혀냈습니다. 하지만 이는 기반 모델에 비해 추론 능력의 경계를 오히려 좁히는 결과를 초래합니다.

더욱 흥미로운 것은, 연구진이 증류(distillation) 기법이 RLVR과는 달리 모델에 새로운 지식을 실제로 도입할 수 있음을 발견했다는 점입니다. 이러한 결과들은 RLVR을 이용한 LLM 추론 능력 향상에 대한 기존의 이해를 근본적으로 재고해야 함을 시사하며, LLM 추론 능력 향상을 위한 더 나은 패러다임의 필요성을 강조합니다. 이 연구는 기존의 통념에 도전하는 동시에, LLM 연구의 새로운 방향을 제시하는 중요한 이정표가 될 것입니다. 연구에 대한 자세한 내용은 프로젝트 페이지를 참조하십시오.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Published:  (Updated: )

Author: Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang

http://arxiv.org/abs/2504.13837v1