AdaSTaR: 자기 학습 추론 모델의 혁신적인 학습 방식


카이스트 연구진이 개발한 AdaSTaR은 자기 학습 추론 모델의 훈련 방식을 혁신적으로 개선하여 정확도 향상과 학습 효율 증대를 동시에 달성했습니다. 6개 벤치마크에서 최고 성능을 기록했으며, 향후 AI 발전에 크게 기여할 것으로 예상됩니다.

related iamge

자기 개선형 추론 언어 모델(LM)의 훈련 과정에서 필수적인 요소인 자기 학습 추론기(STaR, 또는 Rejection sampling Fine-Tuning(RFT))는 기존에 무작위 데이터 샘플링 방식을 사용해 왔습니다. 하지만 이는 풀린 문제 예시에는 과도하게 학습하고 어려운 문제 예시에는 부족하게 학습하는 불균형을 초래했습니다.

카이스트 연구진(고우성, 오원빈, 장재인, 이민형, 김형진, 김아연, 김준기, 이정현, 김태현, 윤세영) 은 이러한 문제를 해결하기 위해 AdaSTaR을 개발했습니다. AdaSTaR은 두 가지 적응형 샘플링 원칙을 통합하여 이러한 문제점을 해결합니다.

  • 적응형 다양성 샘플링: 관측값 전반에 걸쳐 균형 잡힌 학습을 촉진합니다.
  • 적응형 커리큘럼 샘플링: 모델의 발전 수준에 맞춰 데이터 난이도를 역동적으로 조절합니다.

6개의 벤치마크 테스트 결과, AdaSTaR은 모든 경우(6/6)에서 최고의 테스트 정확도를 달성했으며, 기존 방식 대비 평균 58.6%의 학습 FLOPs(연산량) 감소 효과를 보였습니다. 이는 다양한 사전 훈련된 LM과 더 큰 모델에도 적용 가능하며, 더욱 효율적이고 효과적인 자기 개선형 LM 개발의 길을 열었습니다.

이 연구는 단순히 정확도 향상을 넘어, 훈련 과정의 효율성까지 획기적으로 개선하여 자기 학습 추론 모델의 실용성을 한 단계 끌어올린 중요한 성과입니다. 앞으로 AdaSTaR을 기반으로 더욱 발전된 자기 학습 추론 모델들이 개발될 것으로 기대됩니다. 이는 인공지능 분야의 새로운 이정표가 될 가능성이 높습니다.


핵심 키워드: AdaSTaR, 자기 학습 추론기, STaR, RFT, 적응형 샘플링, 효율적 학습, 언어 모델, 딥러닝, 인공지능


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] AdaSTaR: Adaptive Data Sampling for Training Self-Taught Reasoners

Published:  (Updated: )

Author: Woosung Koh, Wonbeen Oh, Jaein Jang, MinHyung Lee, Hyeongjin Kim, Ah Yeon Kim, Joonkee Kim, Junghyun Lee, Taehyeon Kim, Se-Young Yun

http://arxiv.org/abs/2505.16322v1