ReTool: LLM의 전략적 도구 사용을 위한 강화 학습의 혁신
ReTool은 LLM의 전략적 도구 사용을 위한 강화학습 기반 프레임워크로, 실시간 코드 실행 통합과 자동화된 RL 패러다임을 통해 복잡한 문제 해결 능력을 향상시켰습니다. MATH Olympiad benchmark AIME에서 우수한 성능을 보였으며, 코드 자체 수정 등의 새로운 행동을 통해 하이브리드 신경 기호 시스템에 대한 새로운 통찰력을 제공합니다.

ReTool: LLM의 한계를 뛰어넘는 혁신적인 강화학습
최근 딥러닝 기반의 추론 모델들이 눈부신 발전을 이루고 있지만, 기하학적 추론, 간결한 계산, 복잡한 방정식 풀이와 같은 구조화된 문제 해결에는 여전히 어려움을 겪고 있습니다. Jiazhan Feng 등 연구진이 개발한 ReTool은 이러한 한계를 극복하기 위해 등장했습니다. ReTool은 자연어 추론 과정에 실시간 코드 실행을 동적으로 결합하고, 강화 학습을 통해 모델이 언제, 어떻게 도구를 호출해야 하는지 학습하도록 설계된 혁신적인 프레임워크입니다.
ReTool의 핵심은 두 가지입니다. 첫째, 자연어 추론 과정에 실시간 코드 실행을 통합하여 모델의 추론 능력을 강화합니다. 둘째, 자동화된 강화 학습 패러다임을 통해 다중 턴 실시간 코드 실행을 포함한 정책 롤아웃을 수행하고, 결과 피드백에 기반하여 도구 사용 전략을 개선합니다. 이는 인간의 개입 없이 모델이 최적의 도구 호출 패턴을 스스로 발견할 수 있도록 합니다.
연구진은 먼저 코드가 추가된 장문의 추론 추적을 생성하기 위해 합성 콜드 스타트 데이터를 생성하는 체계적인 학습 프레임워크를 구축했습니다. 이 데이터를 기반으로 기본 모델을 미세 조정하고, 과제 결과를 보상으로 활용하여 강화 학습을 진행했습니다.
MATH Olympiad benchmark인 AIME에서 ReTool의 성능은 놀라웠습니다. ReTool-32B 모델은 400번의 학습 단계만으로 67%의 정확도를 달성하여, 텍스트 기반 RL 기준 모델(40% 정확도, 1080 단계)을 크게 능가했습니다. 더욱이 확장된 설정에서는 72.5%의 정확도를 기록하며 OpenAI의 o1-preview를 27.9%나 앞질렀습니다.
흥미로운 점은 ReTool이 코드 자체 수정과 같은 새로운 행동을 보였다는 점입니다. 이는 모델이 적응적 도구 사용 능력을 스스로 습득하는 'aha moment'를 시사합니다. 이러한 결과는 결과 중심의 도구 통합이 복잡한 수학적 추론 발전에 크게 기여할 수 있음을 보여주며, 하이브리드 신경 기호 시스템에 대한 새로운 통찰력을 제공합니다. ReTool은 LLM의 가능성을 넓히는 중요한 발걸음이 될 것입니다. 앞으로 ReTool이 다른 분야에도 어떻게 적용될지, 그리고 어떤 혁신을 가져올지 기대됩니다.
Reference
[arxiv] ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
Published: (Updated: )
Author: Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong
http://arxiv.org/abs/2504.11536v2