딥러닝의 핵심, NTK 이론의 한계를 넘어: 분류 문제에서의 새로운 발견


본 연구는 분류 문제에서 과적합 시 완전 연결 신경망 및 잔차 신경망의 경험적 NTK가 이론적 NTK와 발산함을 증명, 기존 NTK 이론의 한계를 지적하고 분류 문제에 대한 새로운 이해를 제시합니다.

related iamge

최근 딥러닝 분야에서 주목받는 신경 탄젠트 커널(NTK) 이론. 이 이론은 신경망의 훈련 과정을 커널 회귀로 근사할 수 있다는 가정하에, 신경망의 행동을 이해하려는 시도였습니다. 하지만, Yu, Tian, Chen 세 연구원이 발표한 논문, "Divergence of Empirical Neural Tangent Kernel in Classification Problems"은 이러한 기존의 이해에 중대한 도전을 제기합니다.

이 논문의 핵심은 분류 문제에서 NTK 이론이 예상과 다르게 작동한다는 점을 밝힌 것입니다. 완전 연결 신경망(FCNs)과 잔차 신경망(ResNets) 모두에서 과적합(훈련 시간이 무한대로 접근) 상황에서는, 경험적 NTK(실제 훈련 데이터에서 관측되는 NTK)가 이론적 NTK와 발산한다는 것을 증명했습니다. 이는 회귀 문제에서 일반적으로 관찰되는 '느린 훈련(lazy training)'과는 극명한 대조를 이룹니다.

연구진은 먼저 다층 FCNs와 ResNets의 NTK가 엄격히 양의 정부호임을 증명했습니다. 그리고 교차 엔트로피 손실 함수를 사용하는 경우, 경험적 NTK 행렬(그램 행렬)의 최소 고유값이 양의 상수로 하한이 있으면 신경망의 파라미터가 발산함을 보였습니다. 이는 모순을 이용한 증명을 통해, 네트워크 너비가 증가하더라도 경험적 NTK가 모든 시간에 걸쳐 NTK로 균일하게 수렴하지 않음을 보여줍니다.

더욱이, 이들은 합성 데이터와 MNIST 분류 작업을 통해 이론적 결과를 실험적으로 검증했습니다. 결과적으로, 분류 문제에서는 NTK 이론을 적용할 수 없다는 결론을 제시합니다. 이는 신경망 이론, 특히 분류 문제에 대한 이해에 중대한 이론적 함의를 가지는 연구입니다. 이 연구는 NTK 이론의 적용 범위를 명확히 하고, 분류 문제에 대한 새로운 이론적 틀을 마련하는 데 중요한 발걸음이 될 것입니다. 향후 연구에서는 분류 문제에 적합한 새로운 이론적 틀을 모색하고, 이를 바탕으로 신경망의 성능을 더욱 개선하는 연구가 필요할 것으로 예상됩니다.

(이 연구는 기존의 NTK 이론에 대한 새로운 시각을 제공하며, 딥러닝 분류 모델의 이해를 한층 심화시키는 중요한 발견입니다.)


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Divergence of Empirical Neural Tangent Kernel in Classification Problems

Published:  (Updated: )

Author: Zixiong Yu, Songtao Tian, Guhan Chen

http://arxiv.org/abs/2504.11130v1