혁신적인 강화학습 알고리즘 EM Policy Gradient: LLM 추론능력의 새 지평을 열다
Tianbing Xu가 개발한 EM Policy Gradient는 기존 강화학습 알고리즘의 복잡성을 개선하면서 우수한 성능을 달성, LLM의 추론 능력 향상 및 해석성 강화에 기여할 것으로 기대되는 혁신적인 알고리즘입니다.

최근 OpenAI의 O1, O3, DeepSeek의 R1과 같은 기초 모델들은 대규모 강화 학습(RL)을 통해 수학, 코딩, 과학, 지능형 에이전트, 가상 비서 등 다양한 분야에서 강력한 추론 능력과 문제 해결 능력을 선보였습니다. 하지만 이러한 모델들의 추론 과정은 여전히 복잡하고 개선의 여지가 많았습니다.
이러한 한계를 극복하기 위해, Tianbing Xu는 EM Policy Gradient라는 새로운 오프-폴리시 강화 학습 알고리즘을 제시했습니다. 이는 추론 경로에 대한 기대 수익을 최적화하여 LLM의 추론 능력을 향상시키는 것을 목표로 합니다.
EM Policy Gradient는 추론 과제를 기대-최대화(EM) 최적화 문제로 설정하고, 다양한 추론 경로를 샘플링하고 보상 기반 미세 조정을 수행하는 과정을 반복합니다. 기존의 PPO나 GRPO 알고리즘이 복잡한 중요도 가중치와 휴리스틱 클리핑에 의존하는 것과 달리, EM Policy Gradient는 이러한 복잡성을 제거하면서도 강력한 성능을 유지하는 간단하고 원칙적인 오프-폴리시 정책 경사 방법을 제공합니다.
GSM8K와 MATH (HARD) 데이터셋에서의 평가 결과, EM Policy Gradient는 최첨단 GRPO 알고리즘과 비교하여 비슷하거나 약간 뛰어넘는 성능을 달성했습니다. 단순히 성능 향상뿐 아니라, 모델은 하위 문제 분해, 자기 검증, 백트래킹과 같은 인지적 행동을 보여주었습니다. 이는 EM Policy Gradient가 LLM 추론의 해석성과 강건성을 향상시키는 데 크게 기여할 수 있음을 시사합니다.
이 연구는 LLM의 추론 능력 향상에 새로운 가능성을 제시하며, 향후 AI 분야의 발전에 큰 영향을 미칠 것으로 예상됩니다. 더욱 간단하고 효율적인 알고리즘을 통해 더욱 강력하고 해석 가능한 AI 모델의 개발이 기대됩니다. 앞으로 EM Policy Gradient를 기반으로 한 추가 연구와 응용이 활발하게 진행될 것으로 전망됩니다. 🎉
Reference
[arxiv] Training Large Language Models to Reason via EM Policy Gradient
Published: (Updated: )
Author: Tianbing Xu
http://arxiv.org/abs/2504.18587v1