DGRO: 탐색-활용 제어 및 보상 분산 관리를 통한 LLM 추론 향상
중국과학원 연구진이 개발한 DGRO 알고리즘은 LLM의 추론 능력 향상을 위한 획기적인 방법을 제시합니다. 탐색-활용 제어와 보상 분산 관리를 통해 기존 알고리즘의 한계를 극복하고, Logic 데이터셋에서 96.9%의 높은 정확도를 달성했습니다. 이 연구는 AGI 개발에 중요한 기여를 할 것으로 예상됩니다.

AI 추론의 혁신: DGRO 알고리즘의 등장
최근 인공지능(AI) 분야에서 대규모 언어 모델(LLM)의 추론 능력 향상은 인공 일반 지능(AGI) 달성을 위한 중요한 과제로 떠오르고 있습니다. 수많은 연구팀들이 강화 학습(RL)을 활용하여 LLM의 추론 능력을 향상시키는 연구를 진행하고 있으며, 그 중에서도 중국과학원 소속 연구진(Xuerui Su 외 7인) 이 개발한 DGRO(Decoupled Group Reward Optimization) 알고리즘은 주목할 만한 성과를 보여주고 있습니다.
기존의 LLM 추론 접근 방식들은 대부분 수작업으로 설계된 규칙 기반 보상 함수에 의존해 왔습니다. 그러나 강화 학습 알고리즘에서 탐색과 활용의 절충은 매우 복잡한 문제이며, 수동으로 설계된 보상 함수의 이론적 및 실험적 영향은 아직 충분히 탐구되지 않았습니다. DGRO는 이러한 문제점을 해결하기 위해 제안된 획기적인 알고리즘입니다.
DGRO의 핵심은 두 가지 혁신적인 접근 방식에 있습니다. 첫째, 기존의 규제 계수를 두 개의 독립적인 하이퍼파라미터로 분리하여 정책 경사 항과 샘플링 정책 간의 거리를 각각 제어합니다. 이를 통해 탐색과 활용의 균형을 정밀하게 제어할 수 있으며, Kimi k1.5의 온라인 정책 미러 강하(OPMD) 알고리즘과 직접 보상 최적화에도 손쉽게 확장될 수 있습니다. 둘째, 연구진은 보상 분산이 수렴 속도와 최종 모델 성능에 큰 영향을 미친다는 것을 관찰하고 이를 이론적, 실험적으로 검증했습니다.
실험 결과는 DGRO의 우수성을 명확하게 보여줍니다. Logic 데이터셋에서 평균 정확도 96.9%를 달성하여 최첨단 성능을 기록했으며, 수학적 벤치마크에서도 강력한 일반화 성능을 입증했습니다. 이는 DGRO가 LLM 추론 능력 향상에 있어 중요한 돌파구를 마련했다는 것을 시사합니다.
본 연구는 단순히 새로운 알고리즘을 제시하는 데 그치지 않고, 보상 분산의 중요성을 강조하고 이를 제어하는 방법을 제시함으로써 향후 LLM 연구에 중요한 방향을 제시하는 의미를 갖습니다. DGRO는 AGI 개발을 위한 중요한 발걸음이 될 것으로 기대됩니다.
Reference
[arxiv] DGRO: Enhancing LLM Reasoning via Exploration-Exploitation Control and Reward Variance Management
Published: (Updated: )
Author: Xuerui Su, Liya Guo, Yue Wang, Yi Zhu, Zhiming Ma, Zun Wang, Yuting Liu
http://arxiv.org/abs/2505.12951v1