멈춰! 과훈련된 AI는 더 이상 학습하지 않아요: '재앙적 과적합'의 경고
대규모 언어 모델의 과도한 사전 훈련이 성능 저하를 야기하는 '재앙적 과적합' 현상이 발견되었으며, 이는 모델의 downstream 적응성을 고려한 새로운 사전 훈련 디자인의 필요성을 강조합니다.

최근, Jacob Mitchell Springer 등 8명의 연구진이 발표한 논문이 AI 업계에 충격을 안겨주고 있습니다. 그들의 연구는 대규모 언어 모델(LLM)의 사전 훈련에 대한 기존 상식에 정면으로 도전하는 내용을 담고 있기 때문입니다. 지금까지 우리는 '더 많은 데이터, 더 나은 성능'이라는 공식을 당연하게 여겨왔습니다. 하지만 이 연구는 이러한 가정이 항상 옳지 않다는 것을 보여줍니다.
연구진은 '재앙적 과적합(catastrophic overtraining)' 이라는 새로운 개념을 제시합니다. 이는 과도한 사전 훈련이 오히려 모델의 미세 조정(fine-tuning)을 어렵게 만들고, 최종 성능을 저하시키는 현상을 의미합니다. 3조 토큰으로 사전 훈련된 OLMo-1B 모델이 2.3조 토큰으로 훈련된 모델보다 여러 표준 LLM 벤치마크에서 2% 이상 낮은 성능을 보였다는 실험 결과가 이를 뒷받침합니다.
이러한 현상은 왜 발생할까요? 연구진은 사전 훈련된 매개변수의 광범위한 민감도 증가 때문이라고 분석합니다. 미세 조정을 포함한 수정에 대한 민감도가 높아짐으로써, 모델이 새로운 데이터에 적응하는 능력이 떨어지는 것입니다. 이는 마치 훌륭한 기본기를 가진 운동선수가 너무 많은 기술을 익히려다 오히려 기본 동작이 부자연스러워지는 것과 유사합니다. 과도한 훈련은 모델을 '경직되게' 만들어 버리는 것입니다.
연구진은 이러한 발견을 통해 사전 훈련 디자인에 대한 근본적인 재검토를 촉구합니다. 단순히 데이터 양만 늘리는 것이 아니라, 모델의 downstream 적응성, 즉 미세 조정을 통한 성능 향상 가능성을 고려해야 한다는 것입니다. 이는 AI 개발의 새로운 패러다임을 제시하는 중요한 발견이라고 할 수 있습니다. 더 이상 '더 크게'만 생각할 것이 아니라, '더 효율적으로' '더 적응력 있게' 개발해야 함을 시사하고 있습니다. AI 개발자들에게는 새로운 과제이자, 동시에 혁신의 기회가 될 것입니다.
Reference
[arxiv] Overtrained Language Models Are Harder to Fine-Tune
Published: (Updated: )
Author: Jacob Mitchell Springer, Sachin Goyal, Kaiyue Wen, Tanishq Kumar, Xiang Yue, Sadhika Malladi, Graham Neubig, Aditi Raghunathan
http://arxiv.org/abs/2503.19206v1