AdamS: LLM 학습의 혁신적인 최적화 알고리즘 등장!
AdamS는 기존 Adam 옵티마이저의 단점을 해결한 새로운 최적화 알고리즘으로, 메모리와 연산량 효율성을 높이면서도 우수한 성능을 제공합니다. GPT-2, Llama2 등 대규모 언어 모델의 학습에 효과적으로 적용 가능하며, 향후 AI 연구 발전에 크게 기여할 것으로 예상됩니다.

AdamS: 거대 언어 모델 학습의 게임 체인저
최근 거대 언어 모델(LLM) 분야에서 획기적인 발전이 있었습니다. 중국과학원의 Huishuai Zhang, Bohan Wang, Luoxin Chen 연구팀이 개발한 AdamS 알고리즘이 바로 그 주인공입니다. 기존의 Adam 옵티마이저의 한계를 극복하고, LLM 사전 학습 및 후속 학습 과정의 효율성과 성능을 비약적으로 향상시킨 이 알고리즘은 학계와 업계의 주목을 받고 있습니다.
AdamS의 핵심은 무엇일까요?
기존 Adam은 두 번째 모멘텀 추정치를 계산하는데 많은 메모리와 연산 자원을 필요로 했습니다. AdamS는 새로운 분모를 도입하여 이 문제를 해결했습니다. 모멘텀과 현재 기울기의 가중치 합의 제곱근을 분모로 사용함으로써, 두 번째 모멘텀 추정치 계산을 생략하고도 효과적인 최적화를 달성했습니다.
이는 곧 메모리와 연산량 측면에서 SGD와 유사한 효율성을 의미합니다. 놀라운 점은 이러한 효율성에도 불구하고, AdamS는 AdamW보다 뛰어난 최적화 성능을 보여준다는 것입니다. 이는 Transformer 목적 함수의 $(L_0, L_1)$ 부드러움 특성과 모멘텀 크기의 관계에 대한 엄밀한 이론적 근거를 바탕으로 합니다.
실제 성능은 어떨까요?
연구팀은 GPT-2와 Llama2 (최대 130억 파라미터)를 대상으로 한 사전 학습과 후속 강화 학습 실험을 통해 AdamS의 성능을 검증했습니다. 그 결과는 놀라웠습니다. AdamS는 다양한 과제에서 뛰어난 성능을 보였으며, 기존 최적화 알고리즘을 능가하는 결과를 달성했습니다. 또한, AdamS는 AdamW의 하이퍼파라미터를 직접 활용할 수 있고, 모델에 대한 의존성이 없어 기존 파이프라인에 손쉽게 통합될 수 있다는 장점도 가지고 있습니다.
결론적으로 AdamS는 효율성, 단순성, 그리고 엄밀한 이론적 토대를 갖춘 매력적인 최적화 알고리즘입니다. LLM 분야의 발전에 크게 기여할 것으로 기대되며, 앞으로 더욱 다양한 분야에서 AdamS의 활용을 기대해 볼 수 있습니다. 이번 연구는 LLM 학습 과정의 효율성과 성능 향상에 대한 새로운 가능성을 제시하며, AI 연구의 새로운 지평을 열었다고 평가할 수 있습니다.
Reference
[arxiv] AdamS: Momentum Itself Can Be A Normalizer for LLM Pretraining and Post-training
Published: (Updated: )
Author: Huishuai Zhang, Bohan Wang, Luoxin Chen
http://arxiv.org/abs/2505.16363v1