딥러닝의 새로운 국면: 토큰 임베딩과 다양체 가설의 충돌
마이클 로빈슨, 소우르야 데이, 토니 치앙의 연구는 LLM의 토큰 임베딩이 다양체 가설을 위반하며, 이는 LLM의 출력 변동성을 이해하는 데 중요한 의미를 가진다는 것을 밝혔습니다. 이 발견은 LLM의 성능 향상 및 더욱 안정적인 모델 개발에 기여할 것으로 기대됩니다.

최근 마이클 로빈슨, 소우르야 데이, 토니 치앙 세 연구원이 발표한 논문, "토큰 임베딩은 다양체 가설을 위반한다"는 놀라운 결과를 담고 있습니다. 이 연구는 대규모 언어 모델(LLM)의 입력 공간 구조에 대한 기존의 이해를 뒤흔들 만한 획기적인 발견으로 평가받고 있습니다.
LLM 이해의 핵심: 입력 공간
LLM의 작동 방식을 완전히 이해하려면 먼저 그 입력 공간을 이해해야 합니다. 이 입력 공간에 대한 우리의 가정이 잘못되었다면, LLM의 아키텍처와 상관없이 우리의 이해와 결론 또한 잘못될 가능성이 높습니다. 본 연구는 바로 이 입력 공간, 즉 토큰 임베딩의 구조를 실험적, 이론적으로 밝히는 데 초점을 맞추고 있습니다.
새로운 모델: 섬유 다발과 통계적 검정
연구진은 각 토큰의 이웃이 명확하게 정의된 신호와 잡음 차원으로 분리되는 일반화된 통계적으로 검증 가능한 모델을 제시합니다. 이 모델은 섬유 다발이라는 다양체의 일반화에 기반하며, 따라서 그들의 가설 검정을 "섬유 다발 귀무 가설"이라고 명명했습니다.
귀무 가설을 기각하지 못하는 것은 정보가 부족함을 의미하지만, 특정 토큰에서 귀무 가설을 기각하는 것은 그 토큰이 통계적으로 유의미한 국소적 구조를 가지고 있음을, 즉 우리에게 흥미로운 대상임을 시사합니다.
다양한 LLM에서의 검증과 놀라운 결과
연구진은 여러 오픈소스 LLM에 대해 이 검정을 수행했습니다. 그 결과, 귀무 가설이 자주 기각되었고, 따라서 토큰 부분 공간이 섬유 다발이 아니며, 따라서 다양체도 아님을 증명했습니다. 이러한 발견의 결과로, 의미상 동등한 두 개의 프롬프트가 LLM에 제시될 때, 하나의 프롬프트에 검정에 의해 밝혀진 토큰이 포함되어 있다면, 그 프롬프트는 토큰의 국소적 신호 차원에 비례하여 더 많은 출력 변동성을 보일 가능성이 높습니다.
섬유 다발 귀무 가설의 의미와 향후 연구
이 연구는 LLM의 입력 공간에 대한 우리의 이해에 심오한 영향을 미칠 것으로 예상됩니다. 토큰 임베딩이 다양체 가설을 따르지 않는다는 사실은 LLM의 예측 불확실성과 출력 변동성을 이해하는 데 중요한 단서를 제공합니다. 향후 연구에서는 이러한 발견을 바탕으로 LLM의 성능을 향상시키고, 더욱 안정적이고 예측 가능한 모델을 개발하는 데 기여할 것으로 기대됩니다. 이 연구는 LLM의 내부 작동 방식에 대한 깊이 있는 이해를 제공함과 동시에, 앞으로 나아갈 방향을 제시하는 중요한 이정표가 될 것입니다.
Reference
[arxiv] Token embeddings violate the manifold hypothesis
Published: (Updated: )
Author: Michael Robinson, Sourya Dey, Tony Chiang
http://arxiv.org/abs/2504.01002v1