1비트의 혁명: 초경량 LLM 양자화의 새로운 지평을 열다


Song Siqing 등 연구진의 새로운 LLM 양자화 프레임워크는 1비트 가중치와 활성화를 달성하여 계산 비용을 획기적으로 줄였습니다. 헤시안 기반 미세 그룹화와 EM 기반 양자화, 활성화 오류 완화 기술을 통해 기존의 한계를 극복하고 최첨단 성능을 달성했습니다. 이는 초경량 LLM 시대의 도래를 예고하는 중요한 연구입니다.

related iamge

대규모 언어 모델(LLM)의 폭발적인 성장에도 불구하고, 높은 계산 비용은 여전히 상용화의 걸림돌입니다. Song Siqing 등 연구진이 발표한 논문 "Achieving binary weight and activation for LLMs using Post-Training Quantization"은 이러한 문제에 대한 획기적인 해결책을 제시합니다. 바로 1비트 가중치와 활성화를 달성한 새로운 양자화 프레임워크입니다.

기존의 한계를 넘어서다

기존의 LLM 양자화 기술들은 4비트 미만의 가중치와 활성화 정밀도를 사용할 경우 성능 저하가 발생하는 문제점을 가지고 있었습니다. 하지만 이번 연구는 W(1+1)A(1*4) 구성을 통해 이러한 한계를 극복했습니다. 가중치는 1비트로 양자화하고, 미세 그룹화를 위해 추가적인 1비트를 사용하며, 활성화는 1비트로 양자화하면서 채널 수를 4배 증가시키는 전략입니다.

혁신적인 양자화 전략: 헤시안과 EM의 만남

연구진은 가중치 양자화를 위해 헤시안(Hessian) 기반 미세 그룹화EM(Expectation-Maximization) 기반 양자화 기법을 활용했습니다. 헤시안 행렬을 이용하여 가중치의 중요도를 판단하고, 중요도에 따라 그룹화함으로써 양자화 과정에서의 정보 손실을 최소화합니다. 또한 EM 알고리즘을 통해 최적의 양자화 임계값을 찾아내 정확도를 높였습니다.

활성화 양자화의 경우, INT4로 양자화된 활성화를 4개의 INT1 형태로 분해하고, 양자화 오류를 기반으로 스케일링 인자를 부드럽게 조정하여 양자화 오류를 추가적으로 줄이는 기술을 적용했습니다. 이는 기존의 단순한 양자화 방식보다 훨씬 효과적이며, 성능 저하를 최소화하는 데 기여합니다.

성능: 최첨단 기술을 뛰어넘다

이 새로운 양자화 프레임워크는 다양한 작업에서 기존 최첨단(SOTA) LLM 양자화 기준을 능가하는 성능을 보였습니다. 특히 W2A4 기준을 넘어, 완전한 이진화 모델에 가까워졌다는 점에서 큰 의미를 지닙니다.

결론: 초경량 LLM 시대의 개막

Song Siqing 등 연구진의 연구는 1비트 가중치 및 활성화 양자화를 통해 LLM의 계산 비용을 획기적으로 줄이는 방법을 제시했습니다. 이는 LLM의 상용화 및 다양한 분야에서의 활용 가능성을 크게 확대할 것으로 기대됩니다. 이는 단순한 기술적 진보를 넘어, 초경량 LLM 시대의 개막을 알리는 중요한 이정표라 할 수 있습니다. 앞으로 이 연구를 기반으로 더욱 효율적이고 성능 좋은 LLM 양자화 기술이 개발될 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Achieving binary weight and activation for LLMs using Post-Training Quantization

Published:  (Updated: )

Author: Siqing Song, Chuang Wang, Ruiqi Wang, Yi Yang, Xuyao Zhang

http://arxiv.org/abs/2504.05352v1