거대 언어 모델의 심층화, 과연 효율적인가? 깊이보다 '세밀함'의 문제?

본 연구는 거대 언어 모델(LLM)의 심층화가 성능 향상에 기여하지만 그 효율성에 의문을 제기하고, Llama 3.1과 Qwen 3 모델 분석을 통해 후반부 레이어의 기여도가 낮고 새로운 계산 수행보다는 기존 계산의 세분화에 초점을 맞춘다는 사실을 밝혀냈습니다. 이는 Transformer 아키텍처에서 규모 확장의 수익 감소 현상을 설명하는 중요한 단서를 제공하며, 향후 LLM 연구 방향에 대한 시사점을 제시합니다.

최근 몇 년 사이 엄청난 발전을 이룬 거대 언어 모델(LLM). 모델의 깊이가 깊어질수록 성능이 향상되는 경향은 분명하지만, 과연 그 깊이가 효율적으로 활용되고 있는 것일까요? 단순히 같은 계산을 더 많은 레이어에 나누어 처리하는 것일 뿐일까요, 아니면 얕은 모델에서는 불가능한 고차원 계산을 수행하는 것일까요?

Róbert Csordás, Christopher D. Manning, Christopher Potts 세 연구자는 Llama 3.1과 Qwen 3 계열 모델을 분석하여 이 질문에 대한 흥미로운 답을 제시했습니다. 연구 결과는 놀랍습니다.

첫째, 각 레이어의 출력을 잔차 스트림(residual stream)과 비교 분석한 결과, 모델 후반부 레이어의 기여도가 전반부에 비해 현저히 낮다는 사실이 밝혀졌습니다. 마치 전반부와 후반부 사이에 명확한 상전이(phase transition) 가 존재하는 것처럼 보입니다.

둘째, 후반부 레이어를 건너뛰더라도 향후 계산과 출력 예측에 미치는 영향이 매우 작았습니다. 이는 심층 모델이 새로운 종류의 계산을 수행하는데 후반부 레이어를 활용하지 않음을 강력하게 시사합니다.

셋째, 다단계(multihop) 작업에서도 모델이 깊이를 활용하여 중간 결과를 조합하는 증거를 찾을 수 없었습니다. 깊어진 레이어가 복잡한 다단계 추론에 기여하지 못했다는 뜻입니다.

넷째, 연구진은 얕은 모델의 잔차 스트림과 깊은 모델의 잔차 스트림 간 선형 매핑(linear map)을 학습하는 실험을 진행했습니다. 그 결과, 동일한 상대적 깊이를 가진 레이어끼리 매핑 성능이 가장 좋았습니다. 즉, 더 깊은 모델은 새로운 종류의 계산을 수행하는 것이 아니라, 기존 계산을 더 세분화하여 처리하는 방식을 채택하고 있다는 결론입니다.

이러한 연구 결과는 Transformer 아키텍처에서 규모 확장에 따른 수익 감소 현상(diminishing returns)을 설명하는 중요한 단서를 제공합니다. 깊이만 늘리는 것보다, 각 레이어의 효율성을 높이고, 계산의 세밀함을 개선하는 방향으로 연구가 진행되어야 함을 시사합니다. 단순히 모델을 더 크고 깊게 만드는 것만이 정답이 아니라는 점을 명심해야 할 것입니다. 앞으로의 LLM 연구는 단순한 '깊이'가 아닌 '효율적인 깊이'의 활용에 초점을 맞춰야 할 것입니다. 🤔

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Do Language Models Use Their Depth Efficiently?

Published: (Updated: )

Author: Róbert Csordás, Christopher D. Manning, Christopher Potts

http://arxiv.org/abs/2505.13898v1