MoEQuant: 대규모 언어 모델의 효율적인 양자화를 위한 혁신적인 해법
MoE 기반 대규모 언어 모델의 효율성 향상을 위해 개발된 MoEQuant는 전문가 불균형 문제 해결에 초점을 맞춘 EBSS와 AGQ 기법을 통해 4비트 양자화 환경에서 DeepSeekMoE-16B 모델의 HumanEval 성능을 10% 이상 향상시켰습니다. 향후 연구를 통해 다양한 모델과 환경에서의 성능 검증이 필요합니다.

최근 급격한 발전을 거듭하고 있는 대규모 언어 모델(LLM) 분야에서, 혼합 전문가(MoE) 기반 모델은 효율성과 확장성을 크게 향상시키며 주목받고 있습니다. 하지만 이러한 모델들은 상당한 메모리 오버헤드 문제를 안고 있어, 실제 배포 및 광범위한 활용에 제약이 따릅니다.
이러한 문제를 해결하기 위해 널리 활용되는 방법 중 하나가 바로 훈련 후 양자화(PTQ) 입니다. 그러나 기존의 PTQ 기법을 MoE 모델에 적용할 경우, 정확도 저하와 일반화 성능 감소라는 심각한 문제에 직면하게 됩니다. Xing Hu 등 연구진이 발표한 논문 "MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance"는 이러한 문제에 대한 획기적인 해결책을 제시합니다.
연구진은 MoE 모델의 특징인 희소성과 동적 특성이 양자화 과정에 미치는 영향을 심도 있게 분석했습니다. 그 결과, 두 가지 주요 과제를 밝혀냈습니다. 첫째, 전문가 간 불균형(Inter-expert imbalance) 으로, 일부 전문가에게는 충분한 샘플이 부족하고, 다른 전문가는 과도하게 많은 샘플을 갖게 되는 현상입니다. 이는 덜 사용되는 전문가에 대한 보정이 부족하고 편향될 수 있다는 것을 의미합니다. 둘째, 전문가 내 불균형(Intra-expert imbalance) 입니다. MoE의 고유한 집계 메커니즘으로 인해, 서로 다른 샘플과 할당된 전문가 간의 상관관계가 다양하게 나타나는 문제입니다.
이러한 문제를 해결하기 위해, 연구진은 MoE LLMs에 맞춤화된 새로운 양자화 프레임워크인 MoEQuant을 제안했습니다. MoEQuant는 두 가지 핵심 기술을 포함하고 있습니다.
- 전문가 균형 자기 샘플링(EBSS): 토큰의 누적 확률과 전문가 균형 지표를 활용하여, 전문가 분포가 균형 잡힌 보정 세트를 효율적으로 구성하는 샘플링 기법입니다. 즉, 덜 사용되는 전문가에게도 충분한 샘플을 할당하여 보정의 정확성을 높입니다.
- 친화도 기반 양자화(AGQ): 전문가와 샘플 간의 친화도를 양자화 과정에 통합하여, MoE 계층 내에서 개별 샘플이 서로 다른 전문가에 미치는 영향을 정확하게 평가하는 기법입니다. 이를 통해 전문가 간 불균형 문제를 보다 효과적으로 해결합니다.
실험 결과, MoEQuant는 괄목할 만한 성능 향상을 달성했습니다. 특히 4비트 양자화 환경에서 DeepSeekMoE-16B 모델의 HumanEval 성능을 10% 이상 향상시켰습니다. 이는 MoEQuant가 MoE 기반 LLM의 효율성과 성능을 동시에 개선하는 강력한 기술임을 보여줍니다. MoEQuant는 LLM의 실용적인 배포와 광범위한 활용을 앞당길 핵심 기술로 자리매김할 것으로 기대됩니다. 하지만, 모든 MoE 모델에 적용 가능한지, 다양한 크기의 모델에 대한 추가적인 실험이 필요하며, 상용화에 대한 추가적인 연구가 필요할 것으로 예상됩니다.
Reference
[arxiv] MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance
Published: (Updated: )
Author: Xing Hu, Zhixuan Chen, Dawei Yang, Zukang Xu, Chen Xu, Zhihang Yuan, Sifan Zhou, Jiangyong Yu
http://arxiv.org/abs/2505.03804v1