딥러닝의 핵심, 자기주의 메커니즘의 재해석: KPCA 해석의 허점
Karahan Sarıtaş과 Çağatay Yıldız의 연구는 자기 주의 메커니즘이 Kernel PCA와 동일하다는 기존 주장을 반박하며, 값 벡터와 고유 벡터 간 유사성 부재, 재구성 손실 해석 오류, 그램 행렬 고유값 통계 재현 불가능성 등을 지적했습니다. 10가지 Transformer 아키텍처에 대한 실험 결과, 자기 주의의 KPCA 해석은 경험적으로 지지받지 못한다는 결론을 내렸습니다.

최근 몇 년간 딥러닝 분야에서 혁신적인 성과를 거둔 자기 주의(Self-Attention) 메커니즘. 그 작동 원리를 둘러싼 논쟁이 뜨겁습니다. 특히, 자기 주의가 Kernel PCA(핵심 주성분 분석)와 동일하다는 주장이 제기되었으나, Karahan Sarıtaş과 Çağatay Yıldız의 새로운 연구가 이를 정면으로 반박하고 나섰습니다.
핵심 주장 반박: KPCA 해석의 허점 드러내
이번 연구는 기존 연구에서 제시된 두 가지 핵심 주장, 즉 (1) 값 벡터(V)가 키(Key)의 그램 행렬 고유 벡터를 포착하고, (2) 자기 주의가 특징 공간에서 키 행렬(K)의 주성분 축에 쿼리(Query)를 투영한다는 주장을 검증했습니다. 그 결과는 충격적입니다.
유사성 부재: 연구진은 다양한 지표(최적 코사인 유사도 ≤ 0.32, 선형 CKA ≤ 0.11, 커널 CKA ≤ 0.32)를 사용하여 학습된 자기 주의 값 벡터와 KPCA 관점에서 제시된 고유 벡터 간의 유사성을 분석했습니다. 그 결과, 두 벡터 간에는 거의 유사성이 없다는 것을 확인했습니다. 이는 자기 주의가 KPCA와 동일하게 동작한다는 주장에 심각한 의문을 제기하는 결과입니다.
오류 해석: 기존 연구는 재구성 손실 감소를 통해 자기 주의가 KPCA의 투영 오차를 최소화한다고 주장했습니다. 하지만, 이번 연구는 관련 수치들이 1000배 이상 차이가 난다는 점을 밝혀내며, 기존 주장의 해석 오류를 지적했습니다.
재현 불가능성: V가 그램 행렬의 고유 벡터를 포착한다는 주장을 뒷받침하기 위해 사용된 그램 행렬 고유값 통계는, 문서화되지 않은 구현 특유의 조정 없이는 재현할 수 없었습니다. 이는 기존 연구의 신뢰성에 대한 의문을 더욱 증폭시킵니다.
10가지 Transformer 아키텍처 검증, 결론:
연구진은 10가지의 다양한 Transformer 아키텍처를 사용하여 이러한 분석을 수행했습니다. 그 결과, 모든 아키텍처에서 자기 주의의 KPCA 해석은 경험적으로 지지받지 못한다는 결론을 내렸습니다.
시사점:
이번 연구는 자기 주의 메커니즘에 대한 깊이 있는 이해를 제공하며, 향후 연구 방향을 제시하는 중요한 결과입니다. 자기 주의의 작동 원리에 대한 정확한 이해는 더욱 발전된 딥러닝 모델 개발에 필수적이며, 이 연구는 그 기반을 튼튼히 다지는 데 기여할 것으로 예상됩니다. 하지만, 자기 주의의 실제 작동 원리를 규명하기 위한 추가적인 연구가 필요할 것으로 보입니다.
Reference
[arxiv] A Reproduction Study: The Kernel PCA Interpretation of Self-Attention Fails Under Scrutiny
Published: (Updated: )
Author: Karahan Sarıtaş, Çağatay Yıldız
http://arxiv.org/abs/2505.07908v1