획기적인 AI 연구: 자발적 코드 실행으로 수학 문제 해결하는 에이전트 RL
중국과학원 자동화연구소 연구팀은 LLM의 수학적 추론 능력 향상을 위해 자발적 코드 실행을 통한 강화 학습(RL) 기반의 ZeroTIR 프레임워크를 개발했습니다. 훈련 단계 증가에 따른 성능 향상의 상관관계를 규명하고, 어려운 수학 문제에서 기존 방식보다 우수한 성능을 입증했습니다. 이 연구는 AI의 도구 활용 능력 향상에 기여할 중요한 발견입니다.

최근, 중국과학원 자동화연구소의 Xinji Mai 박사 연구팀이 발표한 논문 "Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving" 은 AI 분야에 새로운 이정표를 제시했습니다. 이 연구는 대규모 언어 모델(LLM)의 한계를 극복하고, 수학적 추론 능력을 향상시키기 위한 혁신적인 방법을 제시하고 있습니다.
LLM의 한계 극복: 코드 실행을 통한 수학 문제 해결
LLM은 복잡한 수학 문제 해결에 어려움을 겪는 경우가 많습니다. 정확하고 검증 가능한 계산을 필요로 하는 문제에서는 특히 그렇습니다. 기존의 강화 학습(RL)은 결과 기반 보상을 통해 텍스트 기반 추론을 향상시키는 데 기여했지만, 에이전트가 코드 실행과 같은 외부 도구를 자율적으로 활용하는 방법을 이해하는 것은 여전히 중요한 과제였습니다.
ZeroTIR: 자발적 코드 실행을 통한 혁신
연구팀은 결과 기반 보상으로부터 RL을 통해 'Tool-Integrated Reasoning'(ZeroTIR)을 개발했습니다. 이는 기본 LLM을 훈련시켜 감독된 도구 사용 예제 없이 수학 문제에 대한 파이썬 코드를 자발적으로 생성하고 실행하도록 하는 것을 목표로 합니다.
놀라운 상관관계 발견: 훈련 단계와 성능 향상
가장 중요한 발견은 RL 훈련이 진행됨에 따라 주요 지표가 예측 가능하게 확장된다는 것입니다. 훈련 단계 증가는 자발적 코드 실행 빈도, 평균 응답 길이, 그리고 무엇보다 최종 작업 정확도의 증가로 이어지는 강한 양의 상관관계를 보였습니다. 즉, 훈련에 투입되는 계산 노력과 효과적인 도구 증강 추론 전략의 출현 사이에는 정량적인 관계가 있다는 것을 시사합니다.
견고한 프레임워크와 실험 결과
연구팀은 분리된 코드 실행 환경을 특징으로 하는 견고한 프레임워크를 구현하고, 표준 RL 알고리즘과 프레임워크에서 결과를 검증했습니다. 실험 결과, ZeroTIR은 어려운 수학 벤치마크에서 비도구 기반 ZeroRL 기준선을 상당히 능가하는 것으로 나타났습니다. 이 연구는 자율적인 도구 사용이 에이전트 RL 내에서 어떻게 습득되고 확장되는지에 대한 기본적인 이해를 제공하며, 미래 연구를 위한 재현 가능한 벤치마크를 제시합니다. 코드는 https://github.com/yyht/openrlhf_async_pipline 에서 공개되어 있습니다.
미래를 위한 전망
이 연구는 LLM의 수학적 추론 능력 향상에 새로운 가능성을 제시합니다. 자발적인 코드 실행을 통한 도구 활용 능력은 AI의 응용 범위를 넓히고, 더욱 복잡한 문제 해결에 기여할 것으로 기대됩니다. 앞으로 이 연구를 기반으로 한 후속 연구들이 AI 기술 발전에 중요한 역할을 할 것으로 예상됩니다.
Reference
[arxiv] Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving
Published: (Updated: )
Author: Xinji Mai, Haotian Xu, Xing W, Weinong Wang, Yingying Zhang, Wenqiang Zhang
http://arxiv.org/abs/2505.07773v2