대규모 언어 모델의 혁신: GVPO를 통한 안정적이고 다재다능한 사후 훈련
Zhang Kaichen 등이 개발한 GVPO는 대규모 언어 모델의 사후 훈련 안정성을 크게 향상시키는 혁신적인 방법입니다. KL-제약된 보상 최대화 문제에 대한 해석적 해법을 활용하여 최적 정책과의 정렬을 보장하며, 유연한 샘플링 분포를 지원하여 기존 방법의 한계를 극복합니다.

최근 급속한 발전을 거듭하는 인공지능 분야에서, 특히 대규모 언어 모델(LLM)의 성능 향상은 끊임없는 연구 과제입니다. LLM을 특정 작업 및 인간의 선호도에 맞게 미세 조정하는 사후 훈련(Post-training)은 그 핵심적인 부분을 차지합니다. 기존의 GRPO(Group Relative Policy Optimization)와 같은 방법들은 상대적 보상 점수를 사용하여 성능 향상을 이끌어냈지만, 훈련의 불안정성이라는 치명적인 단점을 가지고 있었습니다. 이는 실제 적용에 있어 큰 걸림돌이었습니다.
하지만 이제 새로운 희망이 등장했습니다! Zhang Kaichen 등 7명의 연구진이 발표한 논문 "GVPO: Group Variance Policy Optimization for Large Language Model Post-Training" 에서는 이러한 문제를 해결할 혁신적인 방법인 GVPO(Group Variance Policy Optimization) 를 제시합니다.
GVPO는 KL-제약된 보상 최대화에 대한 해석적 해법을 기울기 가중치에 직접 통합하여 최적 정책과의 정렬을 보장합니다. 이는 직관적인 물리적 해석으로 이어집니다. GVPO의 기울기는 암묵적 보상의 중심 거리와 실제 보상의 중심 거리 사이의 평균 제곱 오차를 반영합니다.
GVPO의 핵심적인 장점은 두 가지입니다. 첫째, KL-제약된 보상 최대화 목표와 정확히 일치하는 고유한 최적 솔루션을 보장합니다. 둘째, 온-폴리시(on-policy) 및 중요도 샘플링(importance sampling)의 한계를 피할 수 있는 유연한 샘플링 분포를 지원합니다. 이처럼 이론적 보장과 실용적인 적응성을 통합함으로써 GVPO는 신뢰할 수 있고 다재다능한 LLM 사후 훈련을 위한 새로운 패러다임을 제시합니다. 이는 대규모 언어 모델의 발전에 있어 중요한 이정표가 될 것으로 예상됩니다. 앞으로 GVPO가 LLM의 다양한 응용 분야에서 어떻게 활용될지, 그리고 어떠한 혁신을 가져올지 기대됩니다.
Reference
[arxiv] GVPO: Group Variance Policy Optimization for Large Language Model Post-Training
Published: (Updated: )
Author: Kaichen Zhang, Yuzhong Hong, Junwei Bao, Hongfei Jiang, Yang Song, Dingqian Hong, Hui Xiong
http://arxiv.org/abs/2504.19599v1