거대 언어 모델 경량화의 혁신: 최대 중복성 가지치기(MRP) 등장!
본 기사는 거대 언어 모델(LLM)의 효율적인 경량화를 위한 새로운 알고리즘인 최대 중복성 가지치기(MRP)에 대해 다룹니다. 기존 방법의 한계를 극복하고, 계층별 희소성 할당의 새로운 원칙을 제시하여 LLM의 성능 저하 없이 크기를 줄이는 데 성공한 연구 결과를 소개합니다.

최근 괄목할 만한 성능을 보이는 거대 언어 모델(LLM)은 그 크기 때문에 실제 응용에 배포하는 데 어려움을 겪고 있습니다. 이 문제를 해결하기 위해 연구자들은 네트워크 가지치기 기술을 LLM에 적용하는 연구를 활발히 진행하고 있습니다. 하지만, 각 계층에 얼마나 많은 희소성을 할당할지 결정하는 것은 여전히 큰 과제였습니다. 기존의 방법들은 휴리스틱이나 탐색에 의존하여 최적의 성능을 내지 못하는 경우가 많았죠.
고(Gao) Chang을 비롯한 연구팀은 다양한 LLM을 광범위하게 조사하여 세 가지 중요한 발견을 제시했습니다. 첫째, LLM의 계층별 가지치기 민감도(LPS)는 매우 불균일합니다. 둘째, 가지치기 측정 기준의 선택이 LPS에 영향을 미칩니다. 셋째, 희소 모델의 성능은 계층별 중복성 수준의 균일성과 관련이 있습니다.
이러한 관찰 결과를 바탕으로 연구팀은 LLM의 계층별 희소성이 세 가지 원칙, 즉 불균일성, 가지치기 측정 기준 의존성, 가지치기된 모델에서의 균일한 계층별 중복성 수준을 따라야 한다고 주장합니다.
이를 위해 연구팀은 최대 중복성 가지치기(MRP) 라는 반복적인 가지치기 알고리즘을 제안했습니다. MRP는 각 반복에서 가장 중복된 계층(즉, 가장 높은 비정상치 비율을 가진 계층)을 가지치기합니다. 이를 통해 달성된 계층별 희소성은 위에서 설명한 원칙들과 일치합니다.
LLaMA2와 OPT를 포함한 공개적으로 이용 가능한 LLM에 대한 광범위한 실험을 통해 MRP의 효과를 검증했습니다. 실험 결과는 MRP가 기존 방법보다 우수함을 보여줍니다. 이 연구는 LLM의 효율적인 경량화에 새로운 가능성을 제시하며, 향후 실제 응용 분야에서 LLM의 활용 폭을 넓히는 데 크게 기여할 것으로 기대됩니다.
🎉 결론적으로, 이 연구는 LLM의 효율성을 극대화하는 혁신적인 방법을 제시하며, AI 기술 발전에 중요한 이정표를 세웠습니다. 🎉
Reference
[arxiv] Maximum Redundancy Pruning: A Principle-Driven Layerwise Sparsity Allocation for LLMs
Published: (Updated: )
Author: Chang Gao, Kang Zhao, Jianfei Chen, Liping Jing
http://arxiv.org/abs/2503.18377v1