#토큰 효율적인 강화학습: LLM 추론의 새로운 지평


Alan Lee와 Harry Tong의 연구는 제한된 자원 하에서 LLM의 추론 성능을 향상시키는 새로운 강화학습 전략을 제시합니다. 비평가 기반 방법과 새로운 알고리즘 S-GRPO, T-SPMO를 통해 SVAMP 벤치마크에서 정확도를 46%에서 70% 이상으로 높였으며, 토큰 선택적 최적화의 암묵적 규제 효과를 발견했습니다.

related iamge

토큰 효율적인 강화학습: LLM 추론의 새로운 지평

제한된 자원 속에서 LLM의 추론 능력 극대화

최근 Alan Lee와 Harry Tong이 발표한 논문 "Token-Efficient RL for LLM Reasoning"은 대규모 언어 모델(LLM)의 추론 능력 향상에 있어 획기적인 전략을 제시합니다. 기존의 강화학습(RL) 방식은 메모리와 연산 자원 소모가 매우 커서 LLM에 적용하기 어려웠습니다. 하지만 이 연구는 메모리와 연산 능력에 제약이 있는 환경에서도 LLM의 추론 성능을 효과적으로 높일 수 있는 방법을 제시하여 주목받고 있습니다. 특히 LoRA(Low-Rank Adaptation) 파인튜닝과의 호환성에 초점을 맞추고 있습니다.

전체 시퀀스가 아닌, 핵심 토큰에 집중

기존의 방법들이 전체 시퀀스 업데이트나 별도의 평가자 네트워크에 의존했다면, 이 연구에서는 비평가 기반(critic-free) 방법을 제안합니다. 이는 출력 토큰 중에서 정보가 풍부한 작은 부분집합만을 사용하여 메모리 사용량을 줄이고 훈련의 안정성을 높이는 전략입니다. 이는 마치 거대한 그림에서 중요한 부분만을 선택적으로 학습하는 것과 같습니다. 이를 통해 제한된 자원으로도 효율적인 학습이 가능하게 됩니다.

새로운 알고리즘: S-GRPO와 T-SPMO

연구에서는 두 가지 새로운 알고리즘, S-GRPO (Stochastic Group Relative Policy Optimization)와 T-SPMO (Token-level Prefix Matching approach)를 소개합니다. S-GRPO는 Group Relative Policy Optimization의 확률적 변형으로, T-SPMO는 세분화된 신용 할당을 위한 토큰 수준 접두사 매칭 기법입니다. 이 두 알고리즘은 Qwen2-1.5B 모델에 적용되어 SVAMP 벤치마크에서 놀라운 성능 향상을 보였습니다. 정확도가 46%에서 70% 이상으로 상승한 것입니다. 다자리 곱셈 문제에서도 강력한 성능을 보였습니다.

LoRA와의 시너지 효과 그리고 숨겨진 규제 효과

흥미로운 점은 LoRA를 사용한 전체 토큰 GRPO는 기본 모델보다 성능이 향상되지 않았다는 점입니다. 이는 선택적인 토큰 수준 최적화가 저 매개변수 훈련 체제에서 암묵적인 규제 역할을 한다는 것을 시사합니다. 즉, 적은 자원으로도 효과적인 학습을 가능하게 하는 핵심 원리가 밝혀진 것입니다.

결론: 이 연구는 제한된 자원 환경에서 LLM의 추론 성능을 향상시키는 혁신적인 방법을 제시합니다. S-GRPO와 T-SPMO는 LLM의 효율성을 극대화하는데 중요한 역할을 할 것으로 기대되며, 향후 LLM 개발에 큰 영향을 미칠 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Token-Efficient RL for LLM Reasoning

Published:  (Updated: )

Author: Alan Lee, Harry Tong

http://arxiv.org/abs/2504.20834v2