획기적인 AI 학습법 등장: LLM의 '선호도'를 따라 학습시키는 새로운 시대


중국 연구팀이 개발한 PDPC 프레임워크는 LLM의 데이터 선호도 변화를 고려하여 학습 효율을 극대화하는 새로운 방법을 제시합니다. Perplexity Difference와 선호도 함수를 활용하여 모델의 학습 난이도에 맞춘 데이터를 제공함으로써, 기존 방식 대비 8.1% 이상의 정확도 향상을 달성했습니다. 이는 LLM 학습의 패러다임을 바꿀 혁신적인 기술로 평가됩니다.

related iamge

거대 언어 모델(LLM)의 숨겨진 욕망: 데이터 선호도에 맞춘 맞춤형 학습

최근 AI 분야에서 가장 주목받는 거대 언어 모델(LLM). 그 놀라운 능력에도 불구하고, 기존 LLM 학습 방식은 한 가지 아쉬운 점을 가지고 있었습니다. 바로 일관된 데이터 분포를 사용한다는 점입니다. 모델의 능력이 향상됨에 따라 데이터 선호도가 변화하는데도 말이죠. 마치 사람이 성장하면서 좋아하는 음식이 바뀌는 것과 같습니다.

중국 과학자팀(Xuemiao Zhang 외)이 발표한 논문 "Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data"는 이 문제에 대한 획기적인 해결책을 제시합니다. 그들은 Perplexity Difference (PD) 기반 선호도 커리큘럼 학습(PDPC) 프레임워크를 통해, LLM이 스스로 선호하는 데이터로 학습하도록 하는 방법을 개발했습니다.

어떻게 LLM의 '선호도'를 알아낼까요?

핵심은 바로 Perplexity Difference (PD) 지표입니다. PD는 강력한 모델과 약한 모델이 특정 데이터를 처리하는 데 어려움의 차이를 정량적으로 측정합니다. 쉽게 말해, PD 값이 높다는 것은 약한 모델에게는 어렵지만, 강력한 모델에게는 쉬운 데이터라는 의미입니다. 연구팀은 이러한 PD 값을 이용하여 데이터를 재구성하여, 모델의 학습 단계에 맞춰 적절한 난이도의 데이터를 제공하는 것입니다.

하지만, 매 학습 단계마다 데이터를 재구성하는 것은 비효율적입니다. 그래서 연구팀은 선호도 함수를 제안했습니다. 이 함수는 LLM의 학습 단계에 따른 데이터 선호도를 예측하여, 오프라인으로 데이터셋을 미리 정렬하고, 학습 과정의 중단 없이 데이터를 제공하는 역할을 합니다. 마치 개인 맞춤형 학습 교재를 미리 준비해 두는 것과 같습니다.

놀라운 결과: 정확도 8.1% 향상!

13억 및 30억 매개변수 모델에 대한 실험 결과는 놀라웠습니다. 특히 1조 토큰으로 학습된 30억 매개변수 모델은 MMLU와 CMMLU 벤치마크에서 평균 정확도가 8.1% 이상 향상되는 결과를 보였습니다. 이는 기존 학습 방식을 압도적으로 뛰어넘는 성과입니다.

이 연구는 단순한 기술적 발전을 넘어, LLM 학습의 패러다임을 바꿀 잠재력을 가지고 있습니다. 앞으로 LLM의 성능 향상에 중요한 이정표가 될 것이며, AI의 발전을 더욱 가속화할 것으로 예상됩니다. LLM의 숨겨진 욕망을 이해하고, 그에 맞춰 학습시키는 새로운 시대가 열린 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data

Published:  (Updated: )

Author: Xuemiao Zhang, Liangyu Xu, Feiyu Duan, Yongwei Zhou, Sirui Wang, Rongxiang Weng, Jingang Wang, Xunliang Cai

http://arxiv.org/abs/2501.13126v2