샴푸 알고리즘의 정화: 휴리스틱 분해를 통한 새로운 최적화의 길
Shampoo 알고리즘의 성공에도 불구하고 존재하는 휴리스틱 문제를 해결하기 위해, Frobenius norm 근사와 고유값/고유벡터 분리를 통해 Adam과의 관계를 분석하고, 학습률 접목의 필요성을 제거하며, 적응적 고유 벡터 계산 빈도 기준을 제시하는 연구 결과를 소개합니다. 이를 통해 Shampoo 알고리즘의 개선 및 향상된 크로네커 인수 분해 기반 학습 알고리즘 개발을 위한 새로운 방향을 제시합니다.

최근 AlgoPerf 경진대회에서 Shampoo 알고리즘의 성공은 신경망 훈련을 위한 크로네커 인수 분해 기반 최적화 알고리즘에 대한 새로운 관심을 불러일으켰습니다. 하지만 Shampoo는 그 성공에도 불구하고, 학습률 접목과 오래된 전처리 등 여러 휴리스틱에 크게 의존하고 있습니다. 이러한 휴리스틱은 알고리즘의 복잡성을 증가시키고, 추가적인 하이퍼파라미터 튜닝을 필요로 하며, 이론적 정당성이 부족하다는 단점을 가지고 있습니다.
Runa Eschenhagen 등 연구진은 이러한 휴리스틱을 Frobenius norm 근사를 통해 Adam과의 관계를 규명하는 관점에서 조사했습니다. 연구진은 전처리기의 고유값과 고유 벡터 업데이트를 분리하여 분석함으로써 휴리스틱의 영향을 명확히 밝혀냈습니다. 그 결과, Adam으로부터의 학습률 접목이 전처리기의 고유값의 오래됨과 잘못된 스케일링을 완화시키는 효과를 가지고 있으며, 고유값을 직접 수정하면 학습률 접목의 필요성을 없앨 수 있음을 보였습니다.
뿐만 아니라, 연구진은 고유 벡터 계산 빈도를 결정하는 적응적 기준을 제안했습니다. 이 기준은 warm-started QR 알고리즘의 종료를 동기로 하여, 다양한 전처리기 행렬의 업데이트 빈도를 분리하고 근사 오류의 영향을 효과적으로 분석할 수 있도록 합니다.
이러한 실용적인 기법들은 Shampoo의 휴리스틱을 제거하고, 향상된 크로네커 인수 분해 기반 훈련 알고리즘을 개발하기 위한 원칙적인 방향을 제시합니다. 이는 단순히 성능 개선을 넘어, 알고리즘의 투명성과 이론적 이해를 높이는 중요한 발걸음이 될 것입니다. 앞으로 이 연구를 기반으로 더욱 효율적이고 안정적인 딥러닝 훈련 알고리즘이 개발될 것으로 기대됩니다.
Reference
[arxiv] Purifying Shampoo: Investigating Shampoo's Heuristics by Decomposing its Preconditioner
Published: (Updated: )
Author: Runa Eschenhagen, Aaron Defazio, Tsung-Hsien Lee, Richard E. Turner, Hao-Jun Michael Shi
http://arxiv.org/abs/2506.03595v1