RAGEN: 다중 턴 강화 학습을 통한 LLM 에이전트의 자기 진화 이해
본 기사는 LLM 에이전트의 자기 진화를 이해하기 위한 혁신적인 프레임워크 RAGEN과 StarPO에 대한 연구 결과를 소개합니다. Echo Trap 현상과 그 해결책, 다양한 초기 상태와 샘플링의 중요성, 그리고 정교한 보상 신호의 필요성을 강조하며, 향후 인공지능 발전에 대한 시사점을 제공합니다.

혁신적인 LLM 에이전트 훈련 프레임워크, RAGEN 등장!
최근 대규모 언어 모델(LLM)을 상호작용 에이전트로 훈련하는 연구가 활발하지만, 장기적인 의사결정과 불확실한 환경 피드백과의 상호작용이라는 어려움에 직면해 있습니다. 기존 강화 학습(RL)은 정적인 작업에서는 진전을 보였지만, 다중 턴 에이전트 RL 훈련은 아직 미개척 분야였습니다.
Zihan Wang 등 18명의 연구진은 이러한 문제에 대한 해결책으로 StarPO(State-Thinking-Actions-Reward Policy Optimization) 라는 획기적인 프레임워크를 제시했습니다. StarPO는 궤적 수준 에이전트 RL을 위한 일반적인 프레임워크이며, LLM 에이전트를 훈련하고 평가하기 위한 모듈식 시스템인 RAGEN을 소개합니다.
연구진은 세 가지 스타일화된 환경에서의 연구를 통해 세 가지 핵심적인 발견을 제시합니다.
첫째, 에이전트 RL 훈련에서 보상 분산 급락과 기울기 스파이크가 발생하는 Echo Trap이라는 현상을 발견했습니다. 이를 해결하기 위해 궤적 필터링, 비평가 통합, 분리된 클리핑을 사용하는 안정화된 변형인 StarPO-S를 제안했습니다.
둘째, RL 전개 과정의 형성은 다양한 초기 상태, 중간 상호 작용 세분성, 그리고 더 빈번한 샘플링으로부터 이익을 얻을 수 있음을 발견했습니다. 다양한 상황과 자세한 상호작용을 통해 에이전트의 학습 효율을 높일 수 있다는 것을 시사합니다.
셋째, 정교하고 추론을 인식하는 보상 신호 없이는 에이전트의 추론 능력이 다중 턴 RL을 통해 거의 나타나지 않으며, 얕은 전략이나 환각적인 생각을 보일 수 있다는 점을 밝혔습니다. 즉, 에이전트가 단순히 표면적인 패턴만 학습하는 것을 넘어, 진정한 의미의 추론 능력을 갖추려면 보다 세밀한 보상 시스템이 필요하다는 것을 의미합니다.
이 연구는 LLM 에이전트의 자기 진화를 이해하는 데 중요한 단서를 제공하며, 더욱 발전된 인공지능 시스템 개발을 위한 중요한 이정표가 될 것으로 기대됩니다. 자세한 내용과 코드는 https://github.com/RAGEN-AI/RAGEN 에서 확인할 수 있습니다.
Reference
[arxiv] RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
Published: (Updated: )
Author: Zihan Wang, Kangrui Wang, Qineng Wang, Pingyue Zhang, Linjie Li, Zhengyuan Yang, Kefan Yu, Minh Nhat Nguyen, Licheng Liu, Eli Gottlieb, Monica Lam, Yiping Lu, Kyunghyun Cho, Jiajun Wu, Li Fei-Fei, Lijuan Wang, Yejin Choi, Manling Li
http://arxiv.org/abs/2504.20073v1