TreeRPO: LLM 추론 능력의 혁신적인 발전
TreeRPO는 트리 샘플링 기반의 새로운 강화 학습 방법으로 LLM의 추론 능력을 향상시켰습니다. 기존 방식의 한계를 극복하여 Qwen-2.5-Math 모델의 정확도를 19%에서 35.5%로 높였으며, 응답 길이도 18.1% 단축했습니다.

LLM의 추론 능력을 한 단계 끌어올리다: TreeRPO의 등장
최근 괄목할 만한 성과를 보이고 있는 대규모 언어 모델(LLM)은 강화 학습과 검증 가능한 보상(RLVR) 기법을 통해 놀라운 추론 능력을 선보이고 있습니다. 하지만 기존의 방법들은 전체 추론 과정에 대한 보상만을 고려하여 중간 단계의 최적화에 대한 정보가 부족하다는 한계를 가지고 있었습니다.
이러한 문제를 해결하기 위해 등장한 것이 바로 TreeRPO(Tree Relative Policy Optimization) 입니다. Yang Zhicheng 등 6명의 연구진이 개발한 TreeRPO는 트리 샘플링을 이용하여 다양한 추론 단계에서 보상의 수학적 기댓값을 추정하는 혁신적인 방법을 제시합니다. 기존의 별도 단계 보상 모델에 의존하는 방식과 달리, TreeRPO는 트리 샘플링 과정을 통해 직접적으로 이러한 보상을 추정합니다.
GRPO의 그룹 상대적 보상 훈련 메커니즘을 기반으로, TreeRPO는 트리 샘플링 중 생성된 단계별 그룹을 기반으로 보상을 계산합니다. 이를 통해 보다 세밀하고 밀집된 보상 신호를 생성하여 LLM의 학습 과정과 전반적인 성능을 크게 향상시킵니다.
실험 결과는 TreeRPO 알고리즘이 Qwen-2.5-Math 모델의 테스트 벤치마크에서 Pass@1 정확도를 19.0%에서 35.5%로 크게 향상시켰음을 보여줍니다. 이는 단순한 성능 향상을 넘어, GRPO보다 2.9% 높은 성능을 달성하면서 동시에 평균 응답 길이를 18.1% 단축시켜 효율성까지 입증한 것입니다. 자세한 내용과 코드는 GitHub에서 확인할 수 있습니다.
결론적으로, TreeRPO는 단계별 보상을 효과적으로 활용하여 LLM의 추론 능력을 향상시키는 획기적인 방법론으로, AI 분야의 발전에 크게 기여할 것으로 기대됩니다.
Reference
[arxiv] TreeRPO: Tree Relative Policy Optimization
Published: (Updated: )
Author: Zhicheng Yang, Zhijiang Guo, Yinya Huang, Xiaodan Liang, Yiwei Wang, Jing Tang
http://arxiv.org/abs/2506.05183v1