혁신적인 지속 학습: Gemma2의 탄력적 가중치 통합(EWC) 실험 결과


20억 매개변수의 거대 언어 모델 Gemma2에 대한 지속적 학습 실험에서 EWC(탄력적 가중치 통합) 기법의 효과가 입증되었습니다. 리투아니아어 데이터를 사용한 실험 결과, EWC는 기존 지식 손실 없이 새로운 언어 학습을 가능하게 할 뿐만 아니라, 새로운 작업 학습에도 긍정적인 영향을 미치는 것으로 나타났습니다.

related iamge

20억 매개변수 거대 언어 모델 Gemma2의 놀라운 진화: 잊지 않는 학습의 비밀

최근, Vytenis Šliogeris, Povilas Daniušis, Artūras Nakvosas 세 연구원이 발표한 기술 보고서가 AI 학계에 큰 반향을 일으키고 있습니다. 그들은 20억 매개변수의 거대 언어 모델(LLM)인 Gemma2를 대상으로, 탄력적 가중치 통합(Elastic Weight Consolidation, EWC) 기법을 이용한 지속적 사전 훈련 실험 결과를 공개했습니다. 이는 기존 모델의 지식을 유지하면서 새로운 지식을 효율적으로 학습하는 '지속적 학습(Continual Learning)' 분야의 획기적인 성과로 평가받고 있습니다.

이번 연구의 핵심은 리투아니아어 데이터셋(CulturaX의 일부)을 활용하여 Gemma2를 지속적으로 학습시킨 것입니다. 단순히 새로운 언어를 추가하는 것이 아니라, 기존에 학습된 영어 등 다른 언어의 지식을 유지하면서 리투아니아어에 대한 이해 능력을 향상시키는 것을 목표로 했습니다. 그 결과, EWC를 적용한 Gemma2는 기존 지식의 손실(Catastrophic Forgetting) 없이 리투아니아어 학습을 성공적으로 수행했습니다. 더욱 놀라운 것은 EWC가 단순히 망각을 방지하는 데 그치지 않고, 새로운 작업(리투아니아어 이해) 학습에도 긍정적인 효과를 가져왔다는 점입니다.

연구팀은 Arc, Belebele, Gsm8K, Hellaswag, MMLU, TruthfulQA, Winogrande와 같은 다양한 언어 이해 벤치마크(영어 및 리투아니아어 버전)와 퍼플렉서티 벤치마크를 통해 이러한 성과를 검증했습니다. 이는 EWC가 단순한 이론적 개념이 아닌, 실제 LLM의 성능 향상에 실질적으로 기여할 수 있음을 의미합니다.

이번 연구는 지속적 학습 분야의 중요한 전환점을 마련했습니다. 거대 언어 모델의 지속적 학습은 향후 AI 기술 발전에 있어 필수적인 요소이며, EWC와 같은 기술의 발전은 더욱 효율적이고 지능적인 AI 시스템 개발에 크게 기여할 것입니다. Gemma2의 성공적인 실험은 향후 더욱 발전된 지속적 학습 기술의 개발을 위한 촉매제가 될 것으로 기대됩니다. 이는 단순한 기술적 진보를 넘어, AI가 진정한 의미에서 ‘학습하고 성장하는’ 존재로 나아가는 중요한 한 걸음이라고 할 수 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Elastic Weight Consolidation for Full-Parameter Continual Pre-Training of Gemma2

Published:  (Updated: )

Author: Vytenis Šliogeris, Povilas Daniušis, Artūras Nakvosas

http://arxiv.org/abs/2505.05946v1