단순하지만 강력한 AI 추론 알고리즘 GPG 등장!


중국과학원 연구팀이 개발한 GPG 알고리즘은 기존 강화학습 방식의 복잡성을 해결하고 대규모 언어 모델의 추론 능력을 향상시키는 데 효과적입니다. 단순한 구조와 높은 성능으로 주목받고 있으며, GitHub를 통해 공개되어 폭넓은 활용이 기대됩니다.

related iamge

대규모 언어 모델의 추론 능력을 혁신적으로 향상시키는 새로운 강화학습 알고리즘 GPG

최근 AI 분야의 뜨거운 감자인 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 방법이 등장했습니다. 중국과학원 자동화연구소의 Xiangxiang Chu, Hailang Huang, Xiao Zhang, Fei Wei, 그리고 Yong Wang 연구원 팀은 Group Policy Gradient (GPG) 라는 간결하면서도 강력한 강화학습 기반 알고리즘을 개발하여 주목받고 있습니다.

기존의 강화학습(RL) 기법들은 종종 복잡한 구조와 많은 계산 비용을 필요로 했습니다. 하지만 GPG는 기존의 정책 경사(PG) 메커니즘을 재검토하여, 임계(critic) 모델과 참조(reference) 모델을 모두 제거하고, KL 발산 제약 없이 직접적으로 원래의 RL 목적 함수를 최적화합니다. 이를 통해 Group Relative Policy Optimization (GRPO) 와 같은 기존 알고리즘에 비해 훈련 과정을 획기적으로 단순화했습니다.

논문에 따르면, GPG는 보조 기법이나 조정 없이도 뛰어난 성능을 달성합니다. 다양한 단일 모드 및 다중 모드 작업에서 GRPO를 꾸준히 능가하는 결과를 보였으며, 계산 비용 또한 크게 줄였습니다. 이 연구는 방대한 지도 학습 미세 조정(SFT)에 크게 의존하지 않고도 LLM의 추론 능력을 향상시킬 수 있는 가능성을 제시합니다.

GPG의 코드는 GitHub 에서 공개되어, 다른 연구자들이 자유롭게 활용하고 발전시킬 수 있습니다. 이 연구는 AI 분야의 발전에 크게 기여할 것으로 기대되며, 향후 LLM 기반 응용 프로그램의 성능 향상에 중요한 역할을 할 것으로 예상됩니다. 단순함과 강력함을 동시에 갖춘 GPG의 등장은 AI 연구의 새로운 지평을 열어갈 것입니다. 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning

Published:  (Updated: )

Author: Xiangxiang Chu, Hailang Huang, Xiao Zhang, Fei Wei, Yong Wang

http://arxiv.org/abs/2504.02546v1