2비트 양자화의 혁신: '그룹화된 시퀀시 정렬 회전(GSR)' 알고리즘 등장
본 논문은 2비트와 같이 매우 낮은 비트 너비에서도 효과적인 Post-Training Quantization (PTQ)을 가능하게 하는 새로운 기법인 Grouped Sequency-arranged Rotation (GSR)을 제시합니다. Walsh-Hadamard 변환과 시퀀시 정렬을 이용하여 양자화 오류를 줄이고, 블록 대각 행렬을 활용하여 이상치의 영향을 최소화함으로써, 사전 학습 없이도 최적화 기반 방법과 유사한 성능을 달성합니다. WikiText-2 데이터셋에서의 실험 결과는 GSR의 우수성을 입증하며, LLM의 상용화에 크게 기여할 것으로 기대됩니다.

최근, Euntae Choi, Sumin Song, Woosang Lim, Sungjoo Yoo 연구팀이 발표한 논문 "Grouped Sequency-arranged Rotation: Optimizing Rotation Transformation for Quantization for Free"는 거대 언어 모델(LLM)의 배치 과정에서 발생하는 높은 계산 비용 문제에 대한 혁신적인 해결책을 제시합니다. LLM의 실용화를 가로막는 가장 큰 장벽 중 하나인 높은 계산 비용을 해결하기 위해, Post-Training Quantization (PTQ) 기법이 주목받고 있지만, 기존의 회전 기반 PTQ 방법들은 2비트처럼 매우 낮은 비트 너비에서는 성능이 저하되는 문제점을 가지고 있었습니다.
연구팀은 이러한 문제점을 해결하기 위해 사전 학습이 필요 없는 새로운 회전 행렬 생성 기법을 고안했습니다. 핵심은 Walsh-Hadamard 변환과 시퀀시 정렬(sequency ordering) 을 활용한 것입니다. 기존의 Hadamard 행렬과 달리, 시퀀시 정렬을 통해 유사한 주파수 성분들을 그룹화함으로써 양자화 오류를 크게 줄이고, 성능을 향상시키는 데 성공했습니다.
더 나아가, 연구팀은 블록 대각 행렬(block-diagonal matrices)과 더 작은 Walsh 블록들을 사용하는 Grouped Sequency-arranged Rotation (GSR) 을 제안했습니다. GSR은 이상치(outlier)의 영향을 효과적으로 분리하여, 어떠한 사전 학습 없이도 최적화 기반 방법에 필적하는 성능을 달성합니다.
WikiText-2 데이터셋을 이용한 실험 결과, GSR은 추론 작업과 Perplexity (PPL) 점수 모두에서 뛰어난 성능을 보였습니다. 또한 기존의 학습된 회전 기법에 GSR을 적용했을 때에도 성능 향상을 확인했습니다. 이는 2비트와 같이 극도로 낮은 비트 너비에서도 LLM의 효율적인 배포를 가능하게 하는 중요한 발견입니다.
이 연구는 LLM의 상용화를 앞당기는 중요한 전기를 마련했을 뿐 아니라, 저비트 양자화 분야에 새로운 가능성을 열었다는 점에서 큰 의미를 지닙니다. 앞으로 이러한 기술 발전을 통해 더욱 경제적이고 효율적인 AI 시스템 구축이 가능해질 것으로 예상됩니다. 😉
Reference
[arxiv] Grouped Sequency-arranged Rotation: Optimizing Rotation Transformation for Quantization for Free
Published: (Updated: )
Author: Euntae Choi, Sumin Song, Woosang Lim, Sungjoo Yoo
http://arxiv.org/abs/2505.03810v1