대규모 학습률의 놀라운 효과: 표준 폭 조정 하에서의 새로운 이해
본 논문은 대규모 학습률의 효과를 교차 엔트로피 손실 함수와 '제어된 발산' 영역이라는 새로운 관점에서 설명하며, 다양한 실험을 통해 이를 검증합니다. 기존 이론의 한계를 극복하고, 대규모 모델 훈련 최적화 전략에 중요한 시사점을 제시합니다.

대규모 학습률의 놀라운 효과: 표준 폭 조정 하에서의 새로운 이해
Moritz Haas, Sebastian Bordt, Ulrike von Luxburg, Leena Chennuru Vankadara 연구팀은 최근 발표한 논문 "On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling" 에서 대규모 비전 및 언어 모델 훈련의 기존 패러다임에 대한 새로운 시각을 제시했습니다. 기존의 He 초기화와 단일 전역 학습률을 사용하는 표준 매개변수화(SP) 방식은 실제로 성공적이지만, 이론적 이해는 부족했습니다. 기존의 무한 폭 이론은 대규모 학습률 하에서는 불안정성을, 안정적인 학습률 하에서는 특징 학습의 소멸을 예측했기 때문입니다.
하지만 실제로는 최적의 학습률이 이론적 예측보다 훨씬 느리게 감소합니다. 연구팀은 신경망 훈련 역학을 면밀히 연구하여 이러한 차이가 유한 폭 현상(예: 캐터펄트 효과, 가중치와 입력 활성화 간의 정렬 부족)으로만 완전히 설명될 수 없음을 보였습니다.
대신, 손실 함수를 고려해야 함을 밝혔습니다. 평균 제곱 오차(MSE) 손실과 달리, 교차 엔트로피(CE) 손실 하에서는 로짓이 발산하지만 손실, 기울기 및 활성화는 안정적으로 유지되는 '제어된 발산' 영역이 나타납니다. 이러한 안정적인 훈련은 모든 은닉층에서 대규모의 지속적인 특징 진화를 가능하게 하며, 이는 SP의 실제 성공에 중요한 요소입니다.
연구팀은 SGD, Adam과 같은 최적화기, MLP, GPT와 같은 아키텍처, 비전 및 언어와 같은 데이터 모달리티에 걸쳐 실험을 수행하여 교차 엔트로피 손실 하에서는 신경망이 이 '제어된 발산' 영역에서 작동하지만, MSE 손실 하에서는 그렇지 않다는 것을 검증했습니다. 또한, 폭 조정 고려 사항이 경험적으로 최적의 학습률 지수를 예측하는 데 놀라울 정도로 유용하다는 것을 보여주었습니다. 마지막으로, 최근 제안된 계층별 학습률 조정의 효과와 한계를 명확히 했습니다.
이 연구는 대규모 학습률의 효과에 대한 새로운 이해를 제공하며, 향후 대규모 모델 훈련의 최적화 전략 개발에 중요한 시사점을 제시합니다. 특히, 손실 함수의 선택이 모델 훈련에 미치는 영향을 강조하며, 교차 엔트로피 손실 함수의 장점을 다시 한번 확인시켜줍니다. 앞으로 더욱 심도있는 연구를 통해 이러한 발견의 실제 적용 가능성을 확인해 볼 필요가 있습니다.
Reference
[arxiv] On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling
Published: (Updated: )
Author: Moritz Haas, Sebastian Bordt, Ulrike von Luxburg, Leena Chennuru Vankadara
http://arxiv.org/abs/2505.22491v1