거대 언어 모델의 비밀: 중첩(Superposition)이 낳은 강건한 스케일링 법칙
Liu, Liu, Gore 연구팀은 거대 언어 모델(LLM)의 성능 향상을 설명하는 신경 스케일링 법칙의 기원을 '표현 중첩'이라는 개념으로 규명했습니다. 중첩의 강도에 따라 손실 스케일링이 다르게 나타나며, 강한 중첩은 모델 크기에 반비례하는 강건한 스케일링을 유도합니다. 실제 LLM 분석 결과도 이를 뒷받침하며, 향후 LLM의 효율적인 개발에 기여할 것으로 예상됩니다.

오늘날의 거대 언어 모델(LLM) 성공은 더 큰 모델이 더 나은 성능을 발휘한다는 관찰에 기반합니다. 하지만 이러한 '신경 스케일링 법칙'—모델 크기가 커짐에 따라 손실이 power law에 따라 감소하는 현상—의 기원은 여전히 불분명했습니다. Liu, Liu, Gore 세 연구자는 최근 흥미로운 연구 결과를 발표했습니다.
두 가지 경험적 원칙에서 출발합니다. 첫째, LLM은 모델 차원(width)보다 더 많은 것을 표현합니다 (즉, 표현이 중첩됨). 둘째, 언어의 단어나 개념은 다양한 빈도로 나타납니다. 이를 바탕으로, 손실 스케일링과 모델 크기의 관계를 연구하기 위한 간단한 모델을 만들었습니다.
중첩의 강도에 따라 결과가 달라집니다. 중첩이 약할 때, 즉 가장 빈번한 특징만 간섭 없이 표현될 때, 손실의 스케일링은 기저 특징 빈도에 의존합니다. 특징 빈도가 power law를 따르면 손실 또한 power law를 따릅니다. 반면, 강한 중첩 하에서는 모든 특징이 표현되지만 서로 겹치며, 손실은 다양한 특징 빈도 분포에서 모델 차원에 반비례합니다. 이러한 강건한 스케일링은 기하학적으로 설명됩니다. 더 많은 벡터가 저차원 공간에 압축될 때, 벡터 간 간섭(제곱 중첩)은 그 차원에 반비례합니다.
실제 LLM 분석 결과도 이러한 이론을 뒷받침합니다. 연구팀은 네 가지 오픈소스 LLM을 분석하여 강한 중첩을 보이며 이론 모델의 예측과 정량적으로 일치함을 발견했습니다. 흥미롭게도, Chinchilla 스케일링 법칙 또한 연구 결과와 일치했습니다.
결론적으로, 표현 중첩은 관찰된 신경 스케일링 법칙의 중요한 메커니즘입니다. 이러한 통찰력은 더 적은 연산과 매개변수로 더 나은 성능을 달성하는 새로운 훈련 전략과 모델 아키텍처를 고안하는 데 중요한 단서를 제공할 것으로 기대됩니다. 이는 LLM의 효율성과 발전에 획기적인 전환점을 마련할 수 있는 중요한 발견입니다. 😉
Reference
[arxiv] Superposition Yields Robust Neural Scaling
Published: (Updated: )
Author: Yizhou liu, Ziming Liu, Jeff Gore
http://arxiv.org/abs/2505.10465v1