Quamba2: 강력하고 확장 가능한 사후 훈련 양자화 프레임워크
Quamba2는 상태 공간 모델(SSM)의 효율적인 양자화를 위한 혁신적인 프레임워크로, 다양한 플랫폼에서 SSM 배포의 가능성을 크게 높입니다. 오프라인 양자화 기법을 통해 속도 향상과 메모리 감소를 달성하면서 정확도 저하는 최소화하여 성능과 효율성을 모두 만족시킵니다.

Quamba2: 효율성과 성능을 모두 잡은 혁신적인 양자화 프레임워크
최근 상태 공간 모델(SSM) 이 일관된 메모리 사용량과 높은 성능으로 트랜스포머를 대체할 매력적인 대안으로 떠오르고 있습니다. 하지만 SSM의 저장 용량과 연산 성능 요구사항 때문에 클라우드 서비스나 자원 제약이 있는 기기에서 SSM을 확장하는 것은 여전히 어려운 과제입니다.
이 문제를 해결하기 위해, 저비트 너비 데이터 형식으로 SSM을 양자화하면 모델 크기를 줄이고 하드웨어 가속의 이점을 얻을 수 있습니다. 하지만 SSM은 양자화로 인한 오류에 취약하기 때문에, 최근 연구는 특정 모델이나 비트 너비에 대한 최적화에 집중해 왔습니다. 각기 다른 시나리오(예: 대규모 배치 디코딩 속도 향상을 위한 W4A8, 단일 사용자의 짧은 프롬프트 응용 프로그램에서 생성 속도 향상을 위한 W4A16)에는 다른 비트 너비 구성이 필요하다는 점이 간과되어 왔습니다.
Hung-Yueh Chiang 등 연구진이 개발한 Quamba2는 바로 이러한 문제를 해결하기 위해 등장했습니다. Quamba2는 Mamba1과 Mamba2 백본 모두에서 W8A8, W4A8, W4A16과 호환되며, 다양한 플랫폼에서 SSM 배포에 대한 증가하는 수요를 충족합니다.
Quamba2는 SSM의 채널 순서 유지 및 활성화 지속성을 기반으로 오프라인 접근 방식을 사용합니다. 입력 x를 정렬 및 클러스터링하여 8비트로 양자화하고, 입력 의존적 매개변수 B와 C에 대해 상태 그룹별 양자화를 결합합니다. SSM 출력에서 계산 불변성을 보장하기 위해 클러스터링 순서에 따라 가중치를 오프라인으로 재배열합니다.
실험 결과, Quamba2-8B는 여러 최첨단 SSM 양자화 방법을 능가하는 성능을 보였습니다. 사전 채우기 단계에서는 1.3배, 생성 단계에서는 3배의 속도 향상을 달성했으며, 메모리는 4배 감소시키면서 정확도 저하는 평균 1.6%에 불과했습니다. MMLU 평가는 이 프레임워크의 일반화 가능성과 강력함을 보여줍니다. 코드와 양자화된 모델은 https://github.com/enyac-group/Quamba 에서 공개될 예정입니다.
결론적으로, Quamba2는 효율성과 성능을 동시에 향상시키는 혁신적인 양자화 프레임워크로, 다양한 플랫폼에서 SSM의 활용 가능성을 크게 높일 것으로 기대됩니다. 이 연구는 SSM의 실용화에 중요한 발걸음을 내디뎠으며, 앞으로 더욱 발전된 양자화 기술의 개발을 위한 중요한 이정표가 될 것입니다.
Reference
[arxiv] Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models
Published: (Updated: )
Author: Hung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Mohamed S. Abdelfattah, Diana Marculescu
http://arxiv.org/abs/2503.22879v2