ReLU의 부활: SUGAR 알고리즘이 불러온 딥러닝 혁명
SUGAR 알고리즘을 통해 ReLU 활성화 함수의 단점을 극복하고 다양한 딥러닝 모델에서 성능 향상을 달성한 연구 결과를 소개합니다. 이 연구는 기존 기술의 재해석을 통해 딥러닝 발전에 새로운 가능성을 제시합니다.

딥러닝 분야에서 활성화 함수는 모델 성능에 지대한 영향을 미칩니다. 최근 GELU, SELU, SiLU 등의 정교한 활성화 함수들이 주목받고 있지만, 단순함과 효율성으로 여전히 사랑받는 ReLU는 '죽은 ReLU 문제'라는 치명적인 약점을 가지고 있었습니다. ReLU 유닛이 비활성화되어 학습이 제대로 진행되지 않는 이 문제는 ReLU의 한계를 명확히 보여주었습니다.
하지만, 독일과 일본의 연구진으로 이루어진 국제 공동 연구팀이 이러한 한계를 극복하는 놀라운 연구 결과를 발표했습니다. Coşku Can Horuz 등 10명의 연구자들은 SUGAR(Surrogate Gradient Learning for ReLU) 라는 혁신적인 방법을 제안했습니다. SUGAR는 순전파 과정에서는 기존 ReLU 함수를 그대로 사용하지만, 역전파 과정에서는 미분값을 부드러운 대체값으로 바꾸어 그래디언트 소실 문제를 해결합니다. 이는 마치 죽은 ReLU를 되살리는 것과 같습니다.
연구 결과는 놀라웠습니다. VGG-16과 ResNet-18과 같은 기존의 합성곱 신경망 아키텍처에서 SUGAR를 적용했을 때, 일반화 성능이 크게 향상되었고, 활성화의 sparsity(희소성) 또한 증가했습니다. 더욱 놀라운 것은, Conv2NeXt와 Swin Transformer와 같은 최신 아키텍처에서 GELU 대신 SUGAR를 사용했을 때에도 경쟁력 있는, 심지어는 더 나은 성능을 보였다는 점입니다. 이는 최첨단 활성화 함수가 항상 최고의 성능을 보장하는 것은 아니라는 것을 시사합니다.
이 연구는 단순한 ReLU 함수에 적절한 그래디언트 처리 기법을 적용함으로써 딥러닝 모델의 성능을 획기적으로 향상시킬 수 있음을 보여줍니다. 이는 ReLU와 같은 기존 기술의 재해석을 통해 딥러닝 발전에 새로운 가능성을 열어주는 중요한 발견입니다. SUGAR의 등장으로 ReLU는 단순한 '고전'에서 딥러닝의 '영원한 클래식'으로 거듭나게 될지도 모릅니다. 앞으로 SUGAR가 딥러닝 분야에 어떤 영향을 미칠지, 그리고 ReLU의 부활이 어디까지 이어질지 귀추가 주목됩니다.
핵심:
- SUGAR(Surrogate Gradient Learning for ReLU): ReLU의 역전파 과정에서 미분값을 부드러운 대체값으로 바꾸어 '죽은 ReLU 문제'를 해결하는 새로운 기법
- 성능 향상: VGG-16, ResNet-18, Conv2NeXt, Swin Transformer 등 다양한 모델에서 성능 향상 확인
- ReLU의 재평가: 최첨단 활성화 함수가 아닌, 적절한 기법으로 개선된 ReLU가 경쟁력 있는 성능을 보여줌
Reference
[arxiv] The Resurrection of the ReLU
Published: (Updated: )
Author: Coşku Can Horuz, Geoffrey Kasenbacher, Saya Higuchi, Sebastian Kairat, Jendrik Stoltz, Moritz Pesl, Bernhard A. Moser, Christoph Linse, Thomas Martinetz, Sebastian Otte
http://arxiv.org/abs/2505.22074v1