Quamba2: 강력하고 확장 가능한 사후 훈련 양자화 프레임워크로 SSM의 한계를 뛰어넘다!
Quamba2는 State Space Model(SSM)의 효율적인 양자화를 위한 혁신적인 프레임워크로, 메모리 사용량 감소와 속도 향상을 동시에 달성하여 다양한 플랫폼에서 SSM의 활용성을 크게 높였습니다. 실험 결과는 Quamba2의 우수한 성능과 강건성을 입증하며, AI 분야의 발전에 크게 기여할 것으로 예상됩니다.

Quamba2: 차세대 State Space Model 양자화의 혁신
최근 State Space Model (SSM)이 일관된 메모리 사용량과 높은 성능으로 Transformer를 대체할 매력적인 대안으로 떠오르고 있습니다. 하지만 SSM은 저장 용량 및 연산 능력 면에서 상당한 자원을 필요로 하여 클라우드 서비스나 자원 제약적인 기기에서 확장하는 데 어려움을 겪고 있습니다.
이 문제를 해결하기 위해 저비트 양자화 기법이 주목받고 있습니다. 저비트 양자화는 모델 크기를 줄이고 하드웨어 가속화를 통해 성능 향상을 가져올 수 있지만, SSM은 양자화로 인한 오류에 취약하다는 어려움이 있습니다. 기존 연구들은 특정 모델이나 비트 너비에 최적화하는 데 집중했지만, W4A8 (대용량 배치 디코딩 속도 향상)과 W4A16 (단일 사용자의 짧은 프롬프트 애플리케이션에서 생성 속도 향상)처럼 상황에 따른 다양한 비트 너비 구성이 필요합니다.
여기서 등장하는 혁신적인 솔루션이 바로 Quamba2입니다.
Quamba2는 Mamba1과 Mamba2 백본 모두에서 W8A8, W4A8, W4A16을 지원하며, 다양한 플랫폼에서 SSM 배포에 대한 증가하는 요구를 충족합니다. Hung-Yueh Chiang 등 연구진은 SSM의 채널 순서 유지 및 활성화 지속성을 활용하여 독창적인 오프라인 양자화 접근 방식을 제안했습니다. 선형 재귀의 입력 x를 정렬 및 클러스터링하여 8비트로 양자화하고, 입력 의존적 매개변수 B와 C에는 상태 그룹별 양자화를 적용하는 방식입니다. 또한, SSM 출력의 계산 불변성을 보장하기 위해 클러스터링 순서에 따라 가중치를 오프라인으로 재배열합니다.
놀라운 결과가 도출되었습니다! 실험 결과, Quamba2-8B는 기존 최첨단 SSM 양자화 방법들을 능가하는 성능을 보였습니다. 메모리 사용량은 4배 감소했지만, 평균 정확도 저하는 1.6%에 불과했습니다. 더욱이, 사전 채우기 단계에서는 1.3배, 생성 단계에서는 3배의 속도 향상을 달성했습니다. MMLU 평가를 통해 프레임워크의 일반화 성능과 강건성도 검증되었습니다. Quamba2의 코드와 양자화된 모델은 https://github.com/enyac-group/Quamba에서 공개될 예정입니다.
Quamba2는 SSM의 확장성과 효율성에 새로운 기준을 제시하며, AI 모델의 실제 배포 및 활용에 획기적인 발전을 가져올 것으로 기대됩니다. 이 연구는 SSM 기반 애플리케이션의 발전에 중요한 전환점이 될 것입니다.
Reference
[arxiv] Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models
Published: (Updated: )
Author: Hung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Mohamed S. Abdelfattah, Diana Marculescu
http://arxiv.org/abs/2503.22879v1