GPTQv2: 초거대 모델의 효율적인 양자화 혁신
Yale대 연구진이 개발한 GPTQv2는 비대칭 보정 기법과 최적 뇌 압축 이론을 활용하여 초거대 모델의 양자화 효율을 획기적으로 개선했습니다. 단일 GPU에서 405B 파라미터 언어 모델과 최고 성능의 비전 변환기를 성공적으로 양자화했으며, 기존 GPTQ 대비 20줄의 코드 추가만으로 성능 향상을 이루었습니다.

Yale대학교 지능형 컴퓨팅 연구소의 연구진(Li Yuhang, Yin Ruokai, Lee Donghyun, Xiao Shiting, Panda Priyadarshini)이 발표한 획기적인 논문, GPTQv2: Efficient Finetuning-Free Quantization for Asymmetric Calibration 이 AI 학계에 큰 반향을 일으키고 있습니다. 기존의 GPTQ 방법이 각 레이어를 독립적으로 보정하는 것과 달리, GPTQv2는 비대칭 보정(asymmetric calibration) 이라는 새로운 접근 방식을 도입했습니다. 이는 양자화된 레이어의 출력을 정밀 모델의 출력과 정확하게 일치시켜 이전 레이어에서 누적된 양자화 오류를 효과적으로 줄이는 혁신적인 전략입니다.
핵심은 최적 뇌 압축(Optimal Brain Compression) 이론의 활용입니다. 연구진은 이 이론을 바탕으로 양자화 오류와 누적 비대칭 오류를 동시에 최소화하는 해법을 도출했습니다. 단순한 개선이 아닌, 수학적으로 정교한 접근 방식을 통해 양자화의 정확성을 획기적으로 높였습니다.
뿐만 아니라, 연구진은 채널 병렬화, 뉴런 분해, 그리고 콜레스키 재구성을 통한 행렬 융합 등 다양한 기법을 통해 계산 과정의 병렬 처리를 효율적으로 개선했습니다. 놀랍게도 GPTQ 대비 20줄의 코드만 추가하여 이러한 성능 향상을 이뤄냈습니다. 이는 GPTQv2의 구현이 얼마나 간단하고 효율적인지를 보여주는 훌륭한 사례입니다.
실제 성능은 어떨까요? 단일 GPU 환경에서 405B 파라미터의 언어 변환기와 ImageNet 정확도 90%를 달성한 EVA-02(최고 성능의 비전 변환기) 를 성공적으로 양자화했습니다. 이는 GPTQv2의 뛰어난 성능과 확장성을 보여주는 강력한 증거입니다. 자세한 내용과 코드는 github.com/Intelligent-Computing-Lab-Yale/GPTQv2에서 확인할 수 있습니다. 이 연구는 초거대 모델의 효율적인 배포와 활용에 새로운 지평을 열 것으로 기대됩니다.
한줄 요약: GPTQv2는 비대칭 보정과 최적 뇌 압축 이론을 활용해 초거대 모델의 양자화 효율을 획기적으로 높인 기술입니다.
Reference
[arxiv] GPTQv2: Efficient Finetuning-Free Quantization for Asymmetric Calibration
Published: (Updated: )
Author: Yuhang Li, Ruokai Yin, Donghyun Lee, Shiting Xiao, Priyadarshini Panda
http://arxiv.org/abs/2504.02692v2