혁신적인 강화학습 알고리즘 GiGPO: LLM 에이전트 훈련의 새로운 지평을 열다


본 기사는 그룹 내 그룹 정책 최적화(GiGPO)라는 새로운 강화학습 알고리즘을 소개합니다. GiGPO는 계층적 구조를 통해 LLM 에이전트의 정밀한 신용 할당을 가능하게 하며, 기존 알고리즘 대비 성능 향상을 보였습니다. 이는 LLM 에이전트의 실용성을 높이고 AI 연구에 새로운 가능성을 제시하는 혁신적인 연구입니다.

related iamge

최근 그룹 기반 강화학습(RL)의 발전은 수학적 추론과 같은 단일 턴 작업에서 최첨단 대규모 언어 모델(LLM)을 발전시켰습니다. 하지만 장기간의 LLM 에이전트 훈련으로 확장성이 제한적이었습니다. 정적 작업과 달리 에이전트-환경 상호작용은 여러 단계에 걸쳐 전개되며, 종종 드물거나 지연된 보상을 생성하여 개별 단계 간의 신용 할당을 훨씬 더 어렵게 만듭니다.

Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An 등 연구진은 이러한 문제를 해결하기 위해 그룹 내 그룹 정책 최적화(GiGPO) 라는 새로운 RL 알고리즘을 제안했습니다. GiGPO는 그룹 기반 RL의 매력적인 속성(비평가 없음, 낮은 메모리, 안정적인 수렴)을 유지하면서 LLM 에이전트에 대한 세분화된 신용 할당을 달성합니다.

GiGPO는 상대적 이점을 추정하기 위해 두 가지 수준의 구조를 도입합니다.

(i) 에피소드 레벨: 완료된 궤적 그룹을 기반으로 거시적 상대적 이점을 계산합니다. (ii) 단계 레벨: 앵커 상태 그룹화 메커니즘을 도입하여 궤적 간에 반복되는 환경 상태를 식별하여 단계 레벨 그룹을 소급적으로 구성합니다. 동일한 상태에서 비롯된 작업은 그룹화되어 미시적 상대적 이점 추정을 가능하게 합니다.

이 계층적 구조는 보조 모델이나 추가 롤아웃에 의존하지 않고도 전역 궤적 품질과 로컬 단계 효율성을 효과적으로 포착합니다. 연구진은 Qwen2.5-1.5B-Instruct 및 Qwen2.5-7B-Instruct를 사용하여 ALFWorld 및 WebShop이라는 두 가지 어려운 에이전트 벤치마크에서 GiGPO를 평가했습니다. 중요한 것은 GiGPO가 단계별 정밀한 신용 신호를 제공하고 GRPO 기준선보다 ALFWorld에서 12% 이상, WebShop에서 9% 이상의 성능 향상을 달성하면서 동일한 GPU 메모리 오버헤드, 동일한 LLM 롤아웃을 유지하고 추가 시간 비용이 거의 또는 전혀 발생하지 않는다는 점입니다.

GiGPO는 LLM 에이전트 훈련의 효율성과 성능을 크게 향상시켜, 보다 복잡하고 현실적인 문제에 LLM 에이전트를 적용하는 길을 열어줄 것으로 기대됩니다. 이는 AI 연구 분야의 획기적인 발전으로, 향후 다양한 응용 분야에서 혁신적인 가능성을 제시합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Group-in-Group Policy Optimization for LLM Agent Training

Published:  (Updated: )

Author: Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An

http://arxiv.org/abs/2505.10978v1