혁신적인 AI 훈련 프레임워크 SASR: LLM의 추론 능력을 한 단계 끌어올리다
중국 연구진이 개발한 새로운 LLM 훈련 프레임워크 SASR은 SFT와 RL을 단계적, 적응적으로 통합하여 기존 방식의 한계를 극복하고, 우수한 추론 능력을 보이는 LLM을 개발하는 데 성공했습니다. 인간의 학습 과정에서 영감을 얻은 이 혁신적인 접근 방식은 AI 발전에 새로운 지평을 열 것으로 기대됩니다.

최근 급속도로 발전하는 대규모 언어 모델(LLM)은 수학적 추론과 논리적 문제 해결 능력에서 놀라운 성과를 보여주고 있습니다. 하지만 기존의 지도 학습 미세 조정(SFT)이나 강화 학습(RL)만으로는 한계가 존재합니다. SFT는 과적합 문제에 취약하고, RL은 모드 붕괴 현상이 발생할 수 있기 때문입니다.
이러한 문제를 해결하기 위해, 중국 연구진(Jack Chen, Fazhong Liu 외)은 획기적인 훈련 프레임워크 SASR(Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning) 을 제안했습니다. SASR은 인간의 추론 능력 계발 과정에서 영감을 받은 '커리큘럼 학습-퀴즈 메커니즘'을 활용, SFT와 RL을 단계적으로, 그리고 적응적으로 통합하는 방식입니다.
SASR의 핵심은 다음과 같습니다.
- 단계적 접근: 먼저 SFT를 통해 기본적인 추론 능력을 갖춘 후, RL(GRPO)을 단계적으로 도입합니다. 이는 마치 사람이 기본기를 익힌 후 고난도 문제에 도전하는 것과 같습니다.
- 적응형 조정: 경사도 규범과 원래 분포에 대한 분산을 모니터링하여 SFT와 RL의 비중을 동적으로 조절합니다. 즉, 모델의 학습 상황에 따라 최적의 훈련 방식을 실시간으로 조정하는 것입니다. 이는 마치 개인별 맞춤 학습처럼 모델의 강점과 약점을 고려한 최적화된 훈련 과정을 제공합니다.
- 매끄러운 전환: SFT와 RL 사이의 전환을 매끄럽게 진행하여 핵심 추론 능력을 유지하면서 다양한 학습 경로를 탐색할 수 있도록 합니다.
연구진은 실험을 통해 SASR이 기존의 SFT, RL, 그리고 정적인 하이브리드 훈련 방식보다 우수한 성능을 보임을 입증했습니다. 이는 LLM의 추론 능력 향상에 새로운 가능성을 제시하는 중요한 결과입니다. SASR은 단순한 기술적 발전을 넘어, 인간의 학습 과정에 대한 이해를 바탕으로 AI의 학습 방식을 혁신적으로 개선한 사례로 평가받을 수 있습니다. 앞으로 SASR이 LLM 발전에 어떤 영향을 미칠지 귀추가 주목됩니다.
Reference
[arxiv] Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs
Published: (Updated: )
Author: Jack Chen, Fazhong Liu, Naruto Liu, Yuhan Luo, Erqu Qin, Harry Zheng, Tian Dong, Haojin Zhu, Yan Meng, Xiao Wang
http://arxiv.org/abs/2505.13026v1