똑똑한 AI, 이젠 생각할 때만 생각한다: 적응형 추론의 혁신
Songjun Tu 등 연구진의 AutoThink는 대규모 추론 모델의 과도한 추론 문제를 해결하기 위해 R1 스타일 모델의 잠재적 제어 기능을 활용한 다단계 강화학습 프레임워크입니다. 문제 복잡성에 따라 추론 과정을 동적으로 조절하여 정확도와 효율성을 동시에 향상시키는 혁신적인 기술입니다.

최근 급부상하는 대규모 추론 모델(LRMs)은 문제 해결을 위해 단계별 추론 과정을 상세히 생성하지만, 이는 단순 문제에선 과도한 계산 부하와 지연 시간을 초래합니다. Songjun Tu 등 연구진이 발표한 논문 "Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL"은 이러한 '과도한 생각' 문제를 해결하기 위한 혁신적인 접근 방식을 제시합니다.
연구진은 R1 스타일 모델에서 '...'과 같은 간단한 생략 기호를 프롬프트에 삽입하는 것만으로도 모델이 '생각하는 모드'와 '생각하지 않는 모드'를 확률적으로 전환하는 것을 발견했습니다. 이는 모델의 추론 행동에 숨겨진 제어 가능성을 보여주는 놀라운 발견입니다.
이러한 발견을 기반으로 연구진은 AutoThink라는 다단계 강화 학습(RL) 프레임워크를 개발했습니다. AutoThink는 단계별 보상 설계를 통해 모델이 문제의 복잡성에 따라 추론 과정을 동적으로 선택하도록 학습시킵니다. 단순 문제에는 간결한 답변을, 복잡한 문제에는 명시적인 추론을 사용하는 적응형 추론 방식을 구현한 것입니다.
다섯 가지 주요 수학 벤치마크에 대한 실험 결과, AutoThink는 기존의 프롬프팅 및 RL 기반 가지치기 방법에 비해 정확도-효율성 측면에서 우수한 성능을 보였습니다. 특히 DeepSeek-R1-Distill-Qwen-1.5B 모델에서 정확도는 6.4% 향상시키는 동시에 토큰 사용량을 52% 감소시키는 놀라운 결과를 달성했습니다.
AutoThink는 R1 스타일 모델에 손쉽게 통합될 수 있으며, 증류된 모델과 추가로 미세 조정된 모델 모두에 적용 가능합니다. 이는 대규모 추론 모델의 확장 가능하고 적응적인 추론 패러다임을 제시하는 중요한 성과입니다. 이 연구는 AI 모델의 효율성과 성능을 동시에 향상시키는 새로운 가능성을 열었습니다. 앞으로 더욱 발전된 적응형 추론 기술이 AI의 실제 응용 분야에 혁신을 가져올 것으로 기대됩니다.
Reference
[arxiv] Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL
Published: (Updated: )
Author: Songjun Tu, Jiahao Lin, Qichao Zhang, Xiangyu Tian, Linjing Li, Xiangyuan Lan, Dongbin Zhao
http://arxiv.org/abs/2505.10832v1