네모트론-리서치-툴-N1: 강화된 추론으로 도구 사용 언어 모델 탐구
본 연구는 대규모 언어 모델(LLM)의 도구 사용 능력 향상을 위해 규칙 기반 강화 학습을 활용한 새로운 접근법을 제시합니다. 기존의 지도 학습 방식과 달리, 간소화된 보상 시스템을 통해 모델이 독립적인 추론 전략을 개발하도록 유도하며, GPT-4o를 능가하는 성능을 달성했습니다. 또한 강화 학습 전략에 대한 체계적인 연구를 통해 SFT-then-RL 방식의 효용성에 대한 새로운 시각을 제시했습니다.

네모트론-리서치-툴-N1: LLM의 도구 사용 능력 혁신
최근 대규모 언어 모델(LLM)의 외부 도구 활용 능력 향상이 인공지능 연구의 핵심 과제로 떠올랐습니다. 기존의 접근 방식은 주로 강력한 모델에서 추출한 경로를 이용한 지도 학습 미세 조정(SFT)에 의존하여 왔습니다. 하지만 이러한 방법은 모방적인 추론에 그치는 경우가 많아 일반화 능력이 제한적이었습니다.
장샤오쿤 등 연구진이 발표한 논문 “네모트론-리서치-툴-N1: 강화된 추론으로 도구 사용 언어 모델 탐구”는 이러한 한계를 극복하기 위해 규칙 기반 강화 학습을 활용한 새로운 접근법을 제시합니다. 네모트론-리서치-툴-N1은 중간 추론 과정에 대한 감독을 강화하는 대신, 도구 호출의 형식적 유효성과 기능적 정확성만을 평가하는 이진 강화 학습 보상을 사용합니다. 이 간소화된 감독 방식은 모델이 주석이 달린 경로에 의존하지 않고 독립적으로 추론 전략을 개발할 수 있도록 합니다.
핵심: 단순히 기존 모델을 모방하는 것이 아니라, LLM 스스로 추론 전략을 개발하도록 유도하는 새로운 학습 방법
여러 주요 벤치마크에서의 실험 결과, Tool-N1-7B/14B는 GPT-4o를 명확하게 능가하는 성능을 보였습니다. 더 나아가 연구진은 도구 호출 모델 훈련을 위한 규칙 기반 강화 학습 전략 설계에 대한 체계적인 연구를 수행했습니다. 5,518개의 추출된 추론 경로를 사용하여 SFT, RL, 그리고 SFT-then-RL 파이프라인을 비교 분석한 결과, 널리 사용되는 SFT-then-RL 패러다임이 순수 RL보다 항상 우수한 성능을 보이는 것은 아님을 밝혔습니다.
이 연구는 LLM의 도구 사용 능력 향상을 위한 새로운 가능성을 제시하며, 강화 학습의 효율성과 잠재력을 다시 한번 확인시켜줍니다. 간소화된 감독 방식과 독립적인 추론 전략 개발은 향후 LLM 발전에 중요한 이정표가 될 것으로 기대됩니다. 특히, 기존의 SFT-then-RL 방식에 대한 새로운 시각 제시는 향후 연구 방향 설정에 큰 영향을 미칠 것으로 예상됩니다. 앞으로 이러한 연구를 바탕으로 더욱 강력하고 일반화된 LLM이 개발될 것으로 전망됩니다.
Reference
[arxiv] Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning
Published: (Updated: )
Author: Shaokun Zhang, Yi Dong, Jieyu Zhang, Jan Kautz, Bryan Catanzaro, Andrew Tao, Qingyun Wu, Zhiding Yu, Guilin Liu
http://arxiv.org/abs/2505.00024v2