KDRL: 통합 지식 증류 및 강화 학습을 통한 사후 학습 추론 LLM
KDRL은 강화학습(RL)과 지식 증류(KD)를 통합한 새로운 LLM 사후 학습 프레임워크로, 기존 방법들의 한계를 극복하고 추론 능력과 효율성을 동시에 향상시켰습니다. 실험 결과는 KDRL의 우수성을 입증하며, 향후 LLM 발전에 큰 영향을 미칠 것으로 예상됩니다.

혁신적인 사후 학습 프레임워크, KDRL 등장
최근 대규모 언어 모델(LLM)의 사후 학습 분야에서 추론 능력 향상을 위한 두 가지 주요 패러다임이 경쟁적으로 발전해 왔습니다. 바로 강화 학습(Reinforcement Learning, RL)과 지식 증류(Knowledge Distillation, KD)입니다. RL은 복잡한 추론 행동의 출현을 가능하게 하지만, 초기 정책이 높은 보상 궤적을 탐색하는 데 어려움을 겪으면서 샘플 효율이 낮다는 단점을 가지고 있습니다. 반면 KD는 교사 모델을 모방하여 학습 효율을 높이지만, 도메인 외 상황에서는 일반화 성능이 떨어지는 경향이 있습니다.
KDRL: RL과 KD의 시너지 효과
이러한 한계를 극복하기 위해 등장한 것이 바로 KDRL(Knowledge Distillation and Reinforcement Learning) 입니다. KDRL은 중국과학원(Chinese Academy of Sciences) 소속 연구팀인 홍링 쉬(Hongling Xu) 등 9명의 연구원에 의해 개발된 통합 사후 학습 프레임워크로, 교사 감독(KD)과 자기 탐색(RL)을 통해 추론 모델을 동시에 최적화합니다. KDRL은 정책 경사 최적화를 통해 학생 모델과 교사 모델 간의 역 KL 발산(reverse Kullback-Leibler divergence, RKL)을 최소화하는 동시에 규칙 기반 보상을 극대화합니다. 이는 마치 경험 많은 선생님(교사 모델)의 지도를 받으면서 동시에 스스로 문제를 풀어보는(자기 탐색) 학생(학생 모델)과 같은 과정입니다.
통합 목표 함수와 전략적인 최적화
KDRL은 GRPO(Guided Reward Policy Optimization)와 KD를 통합한 목표 함수를 제시하고, KL 근사, KL 계수, 보상 기반 KD 전략 등 다양한 요소들이 사후 학습 역동성과 성능에 미치는 영향을 체계적으로 분석합니다. 다양한 KL 발산 근사 방법과 보상 가중치 조절을 통해 최적의 성능을 도출하는 전략적인 최적화 과정이 핵심입니다.
놀라운 성능 향상과 효율성 증대
여러 추론 벤치마크에 대한 실험 결과, KDRL은 GRPO 및 다양한 KD 기준 모델을 능가하는 성능을 보였습니다. 특히, 추론 토큰 효율성 측면에서도 우수한 결과를 달성하여, 성능과 효율성을 동시에 만족시키는 강력한 사후 학습 방법임을 입증했습니다. 이는 RL과 KD의 통합이 LLM의 추론 능력 향상에 매우 효과적이고 효율적인 전략임을 보여줍니다.
KDRL은 단순히 기존 방법들의 장점을 합친 것 이상의 시너지를 창출합니다. RL과 KD의 장점을 유기적으로 결합하여 LLM의 추론 능력 향상에 새로운 지평을 열 것으로 기대됩니다. 향후 LLM의 발전에 KDRL의 영향력이 더욱 커질 것으로 예상됩니다.
Reference
[arxiv] KDRL: Post-Training Reasoning LLMs via Unified Knowledge Distillation and Reinforcement Learning
Published: (Updated: )
Author: Hongling Xu, Qi Zhu, Heyuan Deng, Jinpeng Li, Lu Hou, Yasheng Wang, Lifeng Shang, Ruifeng Xu, Fei Mi
http://arxiv.org/abs/2506.02208v1