거대 언어 모델의 혁신: 3비트 양자화의 새로운 지평을 열다


본 논문은 거대 언어 모델(LLM)의 효율적인 양자화를 위한 새로운 방법을 제시합니다. Hadamard 행렬과 단계적 이진 탐색 기법을 활용하여 3비트 양자화를 달성, 기존 방법 대비 정확도를 40% 향상시켰습니다. 이를 통해 LLM의 에지 디바이스 배포 가능성을 높였으며, AI의 활용성을 크게 개선할 것으로 기대됩니다.

related iamge

거대 언어 모델(LLM)의 혁신: 3비트 양자화의 새로운 지평을 열다

최근 인공지능 분야에서 괄목할 만한 발전을 이룬 거대 언어 모델(LLM)은 놀라운 추론, 이해 및 데이터 생성 능력을 선보였습니다. 하지만 수십억 개의 파라미터에 달하는 방대한 크기는 모바일 및 에지 디바이스 배포의 걸림돌이 되어 왔습니다. 이 문제를 해결하기 위한 핵심 기술 중 하나가 바로 양자화입니다.

Lucas Maisonnave, Cyril Moineau, Olivier Bichler, Fabrice Rastello 연구팀은 "Gradual Binary Search and Dimension Expansion: A general method for activation quantization in LLMs" 논문을 통해 LLM의 양자화에 있어 획기적인 돌파구를 제시했습니다. 기존 양자화 기법은 LLM의 활성화 값에서 빈번하게 발생하는 이상치(outliers) 때문에 저비트 양자화에 어려움을 겪었습니다. 연구팀은 이 문제를 해결하기 위해 Hadamard 행렬을 활용했습니다.

Hadamard 행렬은 임의의 회전 행렬보다 이상치 감소에 훨씬 효과적인 것으로 입증되었습니다. 연구팀은 단계적 이진 탐색(Gradual Binary Search) 기법을 통해 가중치, 활성화 값, 그리고 키-값(KV) 캐시에 대한 3비트 양자화를 성공적으로 구현했습니다. 이는 기존 최첨단(SoTA) 방법들에 비해 정확도를 40%나 향상시킨 놀라운 결과입니다. 또한, Paley 알고리즘을 사용하여 Qwen 아키텍처와 유사하게 2의 제곱수가 아닌 임베딩 차원도 지원하도록 회전 행렬의 사용을 확장했습니다.

Mistral, LLaMA, Qwen과 같은 다양한 모델군에서 실험 결과를 통해, 연구팀의 방법이 기존 방법들을 능가하며 실용적인 3비트 양자화를 가능하게 함을 확인했습니다. 이는 LLM을 더욱 효율적으로 에지 디바이스에 배포할 수 있는 길을 열어주는 중요한 성과입니다. 이 연구는 단순히 기술적 진보를 넘어, AI의 접근성과 활용성을 획기적으로 높일 수 있는 가능성을 보여줍니다. 앞으로 이 기술이 다양한 LLM 응용 분야에 적용되어 더욱 발전된 AI 시스템 구축에 기여할 것으로 기대됩니다.


핵심 내용 요약:

  • Hadamard 행렬을 이용한 효율적인 이상치 감소
  • 단계적 이진 탐색 기법을 통한 3비트 양자화 성공
  • 가중치, 활성화 값, KV 캐시 모두에 3비트 양자화 적용
  • 기존 최고 성능 대비 40% 정확도 향상
  • 다양한 LLM 모델(Mistral, LLaMA, Qwen)에서 효과 검증

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Gradual Binary Search and Dimension Expansion : A general method for activation quantization in LLMs

Published:  (Updated: )

Author: Lucas Maisonnave, Cyril Moineau, Olivier Bichler, Fabrice Rastello

http://arxiv.org/abs/2504.13989v2