놀라운 발견! 최소주의적 접근으로 LLM 추론 성능 향상시키다


단순한 거절 샘플링 기법(RAFT)이 복잡한 강화학습 알고리즘보다 LLM 추론 향상에 효과적이며, GRPO 알고리즘의 효과는 잘못된 응답 제거에 기인함을 밝히고, 새로운 Reinforce-Rej 알고리즘을 제시한 연구 결과를 소개합니다.

related iamge

거절 샘플링의 반란: LLM 추론의 새로운 지평을 열다

최근 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 강화 학습(RL)이 널리 활용되고 있습니다. 특히 GRPO 알고리즘은 DeepSeek-R1과 같은 모델을 훈련하는 데 큰 성공을 거두었지만, 그 효과의 근원은 아직 명확히 밝혀지지 않았습니다.

슝 위(Wei Xiong) 등 11명의 연구진은 GRPO 알고리즘을 재검토하여 놀라운 결과를 발표했습니다. 연구진은 GRPO를 강화 학습 알고리즘 관점에서 분석하여 핵심 요소들을 분석했습니다. 그 결과, 단순한 거절 샘플링 기법(RAFT)만으로도 GRPO와 PPO와 비슷한 성능을 달성할 수 있다는 것을 발견했습니다. RAFT는 양성 보상을 받은 샘플만으로 모델을 훈련하는 기법입니다. 이는 복잡한 강화 학습 알고리즘이 항상 최선의 선택이 아님을 시사합니다.

연구진의 추가 분석에 따르면, GRPO의 주된 장점은 완전히 잘못된 응답을 가진 프롬프트를 제거하는 데서 비롯됩니다. 보상 정규화는 상대적으로 덜 중요한 요소였습니다. 이러한 통찰력을 바탕으로 연구진은 Reinforce-Rej라는 새로운 알고리즘을 제안했습니다. Reinforce-Rej는 완전히 잘못된 응답과 완전히 정확한 응답을 모두 필터링하는 정책 경사 방법의 최소한의 확장입니다. KL 효율성과 안정성을 향상시키면서, 기존의 복잡한 RL 알고리즘에 대한 경량화된 대안으로 작용합니다.

연구진은 RAFT를 강력하고 해석 가능한 기준으로 제시하며, 미래 연구는 무분별하게 음성 샘플을 통합하는 대신, 더 원칙적인 방법으로 음성 샘플을 통합하는 데 중점을 두어야 한다고 제안합니다. 이 연구는 보상 기반 LLM 후속 훈련에 대한 귀중한 지침을 제공합니다. 단순함 속에 숨겨진 강력한 힘, 이것이 바로 이 연구의 핵심 메시지입니다. LLM 추론 분야의 패러다임 변화를 예고하는 흥미로운 발견입니다! 향후 연구 동향에 귀추가 주목됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce

Published:  (Updated: )

Author: Wei Xiong, Jiarui Yao, Yuhui Xu, Bo Pang, Lei Wang, Doyen Sahoo, Junnan Li, Nan Jiang, Tong Zhang, Caiming Xiong, Hanze Dong

http://arxiv.org/abs/2504.11343v1