GPTQv2: 초거대 모델 경량화의 혁신, 튜닝 없이도 가능하다!


Yale대학교 연구팀이 개발한 GPTQv2는 비대칭 보정 기법과 다양한 병렬화 기법을 통해 초거대 모델의 효율적인 양자화를 가능하게 합니다. 단일 GPU로 405B 매개변수의 언어 모델과 고성능 비전 변환기를 양자화하는 놀라운 성과를 달성했습니다.

related iamge

최근 AI 분야의 뜨거운 감자, 바로 초거대 모델입니다. 엄청난 성능을 자랑하지만, 그 크기와 연산량 때문에 실제 활용에 어려움을 겪는 것이 현실입니다. 이 문제를 해결하기 위해 등장한 기술이 바로 모델 양자화(Quantization) . 기존의 모델 양자화는 복잡한 미세 조정(Fine-tuning) 과정이 필요했지만, 이제는 훨씬 간편하고 효율적인 방법이 등장했습니다! 바로 Yale대학교 Intelligent Computing Lab 연구팀이 개발한 GPTQv2 입니다.

GPTQ의 진화, GPTQv2

GPTQv2는 이전 버전인 GPTQ의 한계를 극복하고 한 단계 도약한 기술입니다. GPTQ가 각 층을 독립적으로 보정하는 방식이었다면, GPTQv2는 비대칭 보정(Asymmetric Calibration) 이라는 혁신적인 기법을 도입했습니다. 이는 양자화된 층의 출력을 정밀 모델의 출력과 정확하게 일치시키는 것을 의미합니다. 이를 통해 이전 층에서 누적된 양자화 오류를 효과적으로 줄일 수 있게 된 것이죠.

이러한 비대칭 보정의 핵심은 최적 뇌 압축(Optimal Brain Compression) 이론에 있습니다. 연구팀은 이 이론을 바탕으로 양자화 오류와 누적 비대칭 오류를 동시에 최소화하는 수식을 도출했습니다. 이는 수학적으로 양자화 오류를 최소화하는 방법을 찾아낸 쾌거입니다.

속도와 효율성의 조화

단순히 이론적으로만 뛰어난 것이 아닙니다. GPTQv2는 놀라운 속도를 자랑합니다. 채널 병렬화, 뉴런 분해, 콜레스키 재구성(Cholesky reformulation) 등의 다양한 병렬화 기법을 활용하여 계산 속도를 획기적으로 향상시켰습니다. 기존 GPTQ에 비해 단 20줄의 코드만 추가되었지만, 성능은 비약적으로 향상되었습니다.

놀라운 실험 결과

그 성능은 실험 결과에서도 확인할 수 있습니다. 단일 GPU를 사용하여 무려 405B 매개변수의 대규모 언어 변환기ImageNet 정확도 90%를 달성한 EVA-02 비전 변환기까지 양자화하는 데 성공했습니다. 이는 엄청난 성과이며, 초거대 모델의 실제 활용 가능성을 크게 높인 것입니다.

GPTQv2 코드는 github.com/Intelligent-Computing-Lab-Yale/GPTQv2 에서 확인할 수 있습니다.

이 연구는 초거대 모델의 경량화 및 실용화에 큰 기여를 할 것으로 기대됩니다. 앞으로 더욱 발전된 기술을 통해 AI가 우리 생활에 더욱 가까이 다가오는 모습을 기대해 볼 수 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] GPTQv2: Efficient Finetuning-Free Quantization for Asymmetric Calibration

Published:  (Updated: )

Author: Yuhang Li, Ruokai Yin, Donghyun Lee, Shiting Xiao, Priyadarshini Panda

http://arxiv.org/abs/2504.02692v1