80/20 법칙을 넘어서: 고엔트로피 소수 토큰이 LLM 추론 강화학습의 핵심


중국 연구팀의 연구에 따르면, LLM의 추론 능력 향상을 위한 강화학습 기반 검증 가능한 보상(RLVR)에서 고엔트로피 소수 토큰이 핵심적인 역할을 수행합니다. 이를 활용하여 전체 토큰의 20%만으로도 우수한 성능을 달성, 80/20 법칙을 뛰어넘는 효율성을 보였습니다.

related iamge

중국 과학자팀의 획기적인 연구 결과 발표: Wang Shenzhi를 비롯한 18명의 연구원으로 구성된 팀이, 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 강화학습 기반 검증 가능한 보상(RLVR)에 대한 흥미로운 연구 결과를 발표했습니다. 이 연구는 기존의 이해를 뛰어넘어 RLVR의 메커니즘을 새로운 관점에서 조명하고 있습니다.

토큰 엔트로피: 추론의 비밀 열쇠: 연구팀은 Chain-of-Thought(CoT) 추론에서 토큰 엔트로피 패턴을 분석하여 RLVR의 작동 원리를 탐구했습니다. 그 결과, 전체 토큰 중 소수의 고엔트로피 토큰이 모델의 추론 경로를 결정하는 데 핵심적인 역할을 한다는 사실을 발견했습니다. 이러한 고엔트로피 토큰은 마치 갈림길 표지판처럼 다양한 추론 경로를 제시하는 역할을 수행합니다.

RLVR 훈련 과정 분석: 연구팀은 RLVR 훈련 과정에서 엔트로피 패턴의 변화를 분석했습니다. 그 결과, RLVR은 기본 모델의 엔트로피 패턴을 대부분 유지하면서, 주로 고엔트로피 토큰의 엔트로피를 조정하는 방식으로 작동한다는 것을 확인했습니다. 이는 고엔트로피 토큰의 중요성을 더욱 강조하는 결과입니다.

80/20 법칙을 뛰어넘는 효율성: 연구팀은 고엔트로피 토큰에 정책 경사도 업데이트를 제한하는 새로운 방법을 제시했습니다. 놀랍게도, 전체 토큰의 20%만 사용하여도 Qwen3-8B 기본 모델에서는 전체 경사도 업데이트와 유사한 성능을, Qwen3-32B 및 Qwen3-14B 모델에서는 훨씬 뛰어난 성능을 달성했습니다. AIME'25 및 AIME'24 벤치마크에서 각각 11.04%, 7.71% (Qwen3-32B), 4.79%, 5.21% (Qwen3-14B)의 성능 향상을 기록했습니다. 반대로, 낮은 엔트로피 토큰만 사용했을 때는 성능이 크게 저하되었습니다. 이는 RLVR의 효과가 주로 추론 방향을 결정하는 고엔트로피 소수 토큰을 최적화하는 데서 비롯된다는 것을 시사합니다.

결론: 이 연구는 토큰 엔트로피 관점에서 RLVR을 이해하고, 고엔트로피 소수 토큰을 활용하여 LLM 추론 성능을 더욱 향상시킬 수 있는 가능성을 제시합니다. 80/20 법칙을 뛰어넘는 이러한 효율적인 접근 방식은 LLM의 발전에 새로운 이정표를 제시할 것으로 기대됩니다. 이는 단순히 효율성 증대를 넘어, LLM의 추론 메커니즘에 대한 심층적인 이해를 제공하는 중요한 발견입니다.


참고: 본 기사는 제공된 정보를 바탕으로 작성되었으며, 연구의 세부 내용은 원 논문을 참고하시기 바랍니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

Published:  (Updated: )

Author: Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin

http://arxiv.org/abs/2506.01939v1