간결함과 강력함의 조화: GPG, 새로운 강화학습 기반 모델 추론 알고리즘 등장!


중국과학원 연구진이 개발한 GPG 알고리즘은 기존 강화학습 방식의 복잡성을 극복하고, 대규모 언어 모델의 추론 능력 향상에 기여합니다. 간결한 구조와 뛰어난 성능으로 주목받고 있으며, 향후 AI 분야 발전에 크게 기여할 것으로 기대됩니다.

related iamge

최근 중국과학원 자동화연구소의 연구진(Chu Xiangxiang, Huang Hailang, Zhang Xiao, Wei Fei, Wang Yong)이 발표한 논문, "GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning"은 인공지능 분야에 새로운 돌풍을 예고합니다. 이 논문은 기존의 복잡한 강화학습(Reinforcement Learning, RL) 방식을 혁신적으로 단순화한 Group Policy Gradient (GPG) 알고리즘을 제시합니다.

기존 RL의 한계 극복: 간결함의 미학

대규모 언어 모델(LLM)의 추론 능력 향상을 위해서는 강화학습이 효과적인 방법으로 알려져 있지만, 기존의 RL 기반 방법들은 종종 복잡한 과정과 많은 계산 자원을 필요로 했습니다. 지도 학습 미세 조정(Supervised Fine-Tuning, SFT)에 대한 의존도가 높았다는 점도 한계로 지적되어 왔습니다. GPG는 이러한 문제점들을 해결하기 위해 등장했습니다.

GPG는 기존 방식과 달리 대리 손실 함수(surrogate loss functions) 를 사용하지 않고 RL 목적 함수를 직접 최적화합니다. 평가자(critic) 모델과 기준 모델(reference models)을 제거하고, KL 발산 제약(KL divergence constraints)을 피하며, 이점과 기울기 추정 편향(advantage and gradient estimation bias) 문제를 해결함으로써 훈련 과정을 획기적으로 단순화했습니다. 이는 Group Relative Policy Optimization (GRPO)와 비교했을 때 특히 두드러지는 장점입니다.

성능과 효율의 완벽한 조화: 실험 결과

연구진은 다양한 단일 모드 및 다중 모드 작업에 걸쳐 GPG의 성능을 평가했습니다. 그 결과, GPG는 GRPO를 꾸준히 능가하는 성능을 보였을 뿐만 아니라 계산 비용 또한 크게 절감하는 것으로 나타났습니다 (Figure 1 참조). 이는 GPG가 복잡성을 희생하지 않고 성능과 효율성을 동시에 달성했음을 의미합니다. 더욱 놀라운 점은 추가적인 기술이나 조정 없이도 이러한 성과를 달성했다는 것입니다.

미래를 향한 발걸음: 지속적인 연구 개발

본 연구는 GPG의 소스 코드를 공개하여 (https://github.com/AMAP-ML/GPG) 다른 연구자들의 추가 연구와 발전을 장려하고 있습니다. 향후 연구는 다른 RL 알고리즘과의 비교 분석, 다양한 응용 분야에 대한 추가 실험, 그리고 GPG의 한계점을 보완하는 연구 등을 통해 더욱 발전될 것으로 예상됩니다. GPG는 LLM의 추론 능력 향상에 새로운 지평을 열었을 뿐만 아니라, 강화학습 알고리즘 디자인에 있어서 간결성과 효율성의 중요성을 다시 한번 일깨워주는 의미있는 결과입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning

Published:  (Updated: )

Author: Xiangxiang Chu, Hailang Huang, Xiao Zhang, Fei Wei, Yong Wang

http://arxiv.org/abs/2504.02546v2