저확률 토큰의 지배를 막아라: LLM 강화학습의 새로운 지평


본 연구는 강화학습 기반 LLM 학습에서 저확률 토큰의 과도한 영향력 문제를 지적하고, 이를 해결하기 위한 두 가지 새로운 방법(Advantage Reweighting, Lopti)을 제시합니다. 실험 결과, 제안된 방법은 GRPO 기반 LLM의 성능을 최대 46.2% 향상시켰으며, LLM 학습 효율성 향상에 중요한 기여를 할 것으로 예상됩니다.

related iamge

최근 강화학습(Reinforcement Learning, RL) 은 대형 언어 모델(Large Language Model, LLM)의 추론 능력 향상에 핵심적인 역할을 하고 있습니다. 특히 GRPO(Group Relative Policy Optimization) 와 같은 혁신적인 방법들이 주목받고 있죠. 하지만 Yang Zhihe 등 연구진이 발표한 논문 "Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs"은 RL 학습 과정에서 간과되었던 중요한 문제점을 지적합니다. 바로 저확률 토큰(low-probability tokens) 의 과도한 영향력입니다.

이 논문에 따르면, 저확률 토큰은 큰 기울기(gradient)를 가지기 때문에 모델 업데이트에 불균형적으로 큰 영향을 미칩니다. 이는 LLM 성능 향상에 필수적인 고확률 토큰(high-probability tokens) 의 학습을 방해하는 주요 원인이 되죠. 고확률 토큰의 기울기는 저확률 토큰에 비해 상대적으로 작아 묻히는 셈입니다.

연구진은 이러한 문제를 해결하기 위해 두 가지 혁신적인 방법을 제안했습니다. Advantage ReweightingLow-Probability Token Isolation (Lopti) 입니다. 이 방법들은 저확률 토큰의 기울기를 효과적으로 줄이고, 고확률 토큰에 의한 매개변수 업데이트를 강화합니다. 즉, 다양한 확률을 가진 토큰 간의 균형 잡힌 업데이트를 통해 RL 학습의 효율성을 높이는 것이죠.

실험 결과는 놀랍습니다. 제안된 방법들은 GRPO로 학습된 LLM의 성능을 크게 향상시켰는데, 특히 K&K 논리 퍼즐 추론 과제에서 최대 **46.2%**의 성능 향상을 달성했습니다. 이는 RL 기반 LLM 학습의 효율성을 획기적으로 개선할 수 있는 가능성을 보여줍니다. 연구진은 이 연구 결과를 https://github.com/zhyang2226/AR-Lopti에서 공개하여 다른 연구자들의 활용을 지원하고 있습니다.

이 연구는 단순히 새로운 알고리즘을 제시하는 것을 넘어, LLM 강화학습의 숨겨진 문제점을 밝히고 그 해결책을 제시했다는 점에서 큰 의의를 가집니다. 앞으로 LLM의 발전에 중요한 기여를 할 것으로 기대됩니다. 저확률 토큰의 과도한 영향력, 이제 더 이상 간과해서는 안 될 문제입니다!


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs

Published:  (Updated: )

Author: Zhihe Yang, Xufang Luo, Zilong Wang, Dongqi Han, Zhiyuan He, Dongsheng Li, Yunjian Xu

http://arxiv.org/abs/2505.12929v1