혁신적인 AI 추론 모델 등장: RL Tango로 수학 문제 해결의 새로운 지평을 열다!
카이웬 자 등 연구진이 개발한 'Tango' 프레임워크는 생성자와 검증자를 동시에 강화 학습(RL)하는 혁신적인 방식으로, 기존 LLM의 추론 능력 한계를 극복하고 7B/8B 규모 모델에서 최첨단 성능을 달성했습니다. 특히 어려운 수학 문제 해결에 탁월한 성능을 보여주며, AI 추론 분야의 새로운 지평을 열었습니다.

최근, 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 강화 학습(RL) 연구가 활발히 진행되고 있습니다. 기존의 LLM 기반 추론 시스템은 고정된 검증자(규칙 기반 또는 사전 훈련된 모델)를 사용하거나, 지도 학습 미세 조정(SFT)을 통해 검증자를 훈련하는 방식을 주로 채택해왔습니다. 하지만 이러한 방식은 '보상 해킹' 문제와 훈련 데이터 분포를 벗어난 상황에서의 일반화 성능 저하라는 한계를 가지고 있었습니다.
카이웬 자(Kaiwen Zha) 등 연구진이 개발한 'Tango'는 이러한 문제점을 극복하기 위해 등장했습니다. Tango는 생성자와 검증자를 동시에, 상호 작용적으로 훈련하는 혁신적인 RL 프레임워크입니다. 핵심은 생성형, 프로세스 수준의 LLM 검증자를 RL을 통해 훈련하는 것입니다. 기존 방식과 달리, 명시적인 프로세스 수준의 주석 없이 결과 수준의 검증 정확도 보상만으로 검증자를 훈련합니다.
이렇게 훈련된 생성형 RL 검증자는 결정론적 검증자나 SFT 방식으로 훈련된 검증자에 비해 훨씬 향상된 견고성과 일반화 성능을 보여줍니다. 이는 생성자와 검증자 간의 효과적인 상호 강화를 가능하게 합니다.
실험 결과는 놀랍습니다. 7B/8B 규모 모델에서 Tango의 생성자는 5개의 경쟁 수준 수학 벤치마크와 4개의 어려운 도메인 외 추론 과제에서 최고 성능을 달성했습니다. 더욱이, 검증자는 ProcessBench 데이터셋에서 최고 성능을 기록했습니다. 특히 어려운 수학 추론 문제에서 두 구성 요소 모두 상당한 성능 향상을 보였습니다. 이는 Tango가 단순한 성능 향상을 넘어, 복잡한 추론 문제 해결에 있어 새로운 가능성을 제시한다는 것을 의미합니다.
자세한 내용과 코드는 GitHub에서 확인할 수 있습니다. Tango는 AI 추론 분야에 혁신을 가져올 잠재력을 지닌 기술이며, 앞으로 더욱 발전된 형태로 우리 삶에 영향을 미칠 것으로 기대됩니다. 💯
Reference
[arxiv] RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning
Published: (Updated: )
Author: Kaiwen Zha, Zhengqi Gao, Maohao Shen, Zhang-Wei Hong, Duane S. Boning, Dina Katabi
http://arxiv.org/abs/2505.15034v1