대규모 언어 모델의 지속적 사전 훈련: 새로운 역학 이해
Wang 등(2025)의 연구는 대규모 언어 모델의 지속적 사전 훈련(CPT) 과정의 학습 역학을 심층 분석하여 CPT 손실 곡선의 이면 메커니즘을 밝히고, 분포 변화와 학습률 어닐링의 영향을 분리했습니다. 새롭게 도출된 CPT 스케일링 법칙은 훈련 단계와 학습률 일정에 따른 손실 예측을 가능하게 하여 CPT의 효율성 향상과 LLM 개발에 기여할 것으로 기대됩니다.

최근 몇 년 동안, 대규모 언어 모델(LLM)의 발전은 눈부셨습니다. 특히, 지속적 사전 훈련(CPT) 은 기존의 강력한 기반 모델을 특정 하위 작업에 효과적으로 적용하는 핵심 기술로 자리매김했습니다. 하지만, CPT 과정 전반에 걸친 학습 역학에 대한 깊이 있는 이해는 아직 부족했습니다.
Wang 등(2025)의 연구는 이러한 한계를 극복하고 CPT 과정의 학습 역학을 심층적으로 탐구했습니다. 연구팀은 특히 일반적인 성능과 하위 도메인 성능이 각 훈련 단계에서 어떻게 변화하는지, 그리고 검증 손실을 통해 도메인 성능을 측정하는 데 집중했습니다.
흥미롭게도, 연구 결과 CPT 손실 곡선은 근본적으로 하나의 곡선에서 다른 숨겨진 곡선으로의 전이를 특징짓는다는 것을 발견했습니다. 이러한 전이는 분포 변화와 학습률 어닐링의 영향을 분리함으로써 설명될 수 있습니다.
연구팀은 이러한 두 요소를 결합한 CPT 스케일링 법칙을 도출했습니다. 이 법칙을 통해 어떠한 (지속적) 훈련 단계와 학습률 일정에서도 손실을 예측할 수 있습니다. 이러한 성과는 손실 잠재력, 최대 학습률, 훈련 단계, 재생 비율 등 CPT의 여러 중요 요소에 대한 포괄적인 이해를 제공합니다.
더 나아가, 연구팀의 접근 방식은 일반적인 성능과 도메인 특정 성능 간의 균형 유지와 같이 다양한 CPT 목표에 맞게 훈련 하이퍼파라미터를 사용자 지정하는 데 적용될 수 있습니다. 광범위한 실험을 통해 이 스케일링 법칙이 다양한 CPT 데이터 세트와 훈련 하이퍼파라미터에 걸쳐 성립한다는 것을 입증했습니다.
이 연구는 단순한 기술적 진보를 넘어, 대규모 언어 모델의 학습 과정에 대한 근본적인 이해를 심화시켰다는 점에서 큰 의의를 지닙니다. CPT의 효율성을 극대화하고, 보다 정교한 LLM을 개발하는 데 중요한 이정표가 될 것으로 기대됩니다. 앞으로 이 연구 결과를 기반으로, 더욱 효율적이고 목적에 맞는 지속적 사전 훈련 기법이 개발될 것으로 예상됩니다.
Reference
[arxiv] Learning Dynamics in Continual Pre-Training for Large Language Models
Published: (Updated: )
Author: Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng
http://arxiv.org/abs/2505.07796v1