양자화와 저랭크 행렬에 고유한 역할 부여: 최적 가중치 분해를 향하여
윤준 초 등 연구진이 제안한 ODLRI는 LLM의 가중치 행렬을 양자화 및 저랭크 성분으로 분해하는 새로운 방법으로, 기존 방법의 한계를 극복하고 다양한 LLM에서 성능 향상을 보였습니다. 이는 LLM 경량화 및 성능 향상에 중요한 기여를 할 것으로 기대됩니다.

거대 언어 모델(LLM) 경량화의 혁신: Outlier-Driven Low-Rank Initialization (ODLRI)
최근 거대 언어 모델(LLM)의 압도적인 성능에도 불구하고, 그 크기로 인한 저장 및 연산 부담은 여전히 큰 과제입니다. 이를 해결하기 위해 가중치 행렬을 양자화(Quantization) 및 저랭크(Low-rank) 성분으로 분해하는 ($\mathbf{W} \approx \mathbf{Q} + \mathbf{L}\mathbf{R}$) 기법이 널리 사용되고 있습니다. 하지만 기존의 공동 최적화 방법들은 양자화와 저랭크 근사 중 한쪽에 치우치는 경향이 있어, 각 성분의 강점을 제대로 활용하지 못하는 경우가 많았습니다.
이러한 한계를 극복하기 위해, 윤준 초, 소은 김 등 연구진은 획기적인 방법인 Outlier-Driven Low-Rank Initialization (ODLRI)을 제안했습니다. ODLRI는 저랭크 성분에 활성화에 민감한 가중치를 할당하는 구조적 분해 방식을 채택합니다. 이를 통해 이상치(Outlier)가 양자화에 미치는 부정적 영향을 완화하고, 양자화와 저랭크 근사 간의 균형을 효과적으로 제어할 수 있습니다.
연구진은 Llama2 (7B, 13B, 70B), Llama3-8B, Mistral-7B 등 다양한 LLM을 대상으로 실험을 진행했습니다. 그 결과, ODLRI를 공동 최적화 프레임워크에 통합함으로써 활성화 인식 오류를 일관되게 줄이고, 양자화 스케일을 최소화하며, 저비트 설정에서 당황도(perplexity)와 제로샷 정확도를 향상시키는 것을 확인했습니다. 이는 단순한 크기 축소를 넘어, LLM의 성능까지 개선할 수 있는 잠재력을 보여줍니다.
ODLRI의 등장은 LLM 경량화 기술의 새로운 지평을 열었습니다. 이 연구는 단순히 효율적인 가중치 분해 방법을 제시하는 것을 넘어, 양자화와 저랭크 성분의 역할을 명확히 구분하고 최적의 균형을 찾는 데 집중함으로써, LLM의 성능과 효율성을 동시에 향상시키는 데 기여할 것으로 기대됩니다. 앞으로 ODLRI가 더욱 발전하여 다양한 LLM에 적용되고, LLM의 대중화와 활용성을 더욱 높일 수 있기를 기대해봅니다.
Reference
[arxiv] Assigning Distinct Roles to Quantized and Low-Rank Matrices Toward Optimal Weight Decomposition
Published: (Updated: )
Author: Yoonjun Cho, Soeun Kim, Dongjae Jeon, Kyelim Lee, Beomsoo Lee, Albert No
http://arxiv.org/abs/2506.02077v1