혁신적인 MoE 모델 효율 향상 전략: 협업 제약 라우팅(C2R)의 등장


MoE 모델의 효율성을 높이기 위해 전문가 간 협업 패턴을 분석하여 과도한 협업을 제한하는 C2R 전략을 제시. LLaMA-MoE와 Qwen-MoE에서 성능 향상과 실행 시간 단축을 달성.

related iamge

AI 모델 효율성의 혁명: 협업 제약 라우팅(C2R) 전략

최근 급속한 발전을 거듭하는 AI 분야에서, 대규모 언어 모델(LLM)의 효율적인 구축과 운영은 핵심 과제입니다. Mixture-of-Experts (MoE) 모델은 계산 비용을 거의 일정하게 유지하면서 모델 규모를 확장하는 데 성공한 혁신적인 접근 방식입니다. 하지만 MoE의 실제 효율성은 전문가 활성화의 불균형과 막대한 통신 오버헤드라는 두 가지 주요 과제에 직면해 왔습니다.

기존 연구는 주로 게이팅 네트워크가 특정 전문가를 선호하는 부하 불균형 문제나, 동적 전문가 작업 부하에 적응하지 못하는 정적 실행에 초점을 맞춰왔습니다. 하지만 장, 리, 팽, 추, 그리고 천 등 연구진은 MoE 라우팅 정책에 대한 새로운 관점, 즉 전문가 간의 협업전문화를 제시했습니다. 일부 전문가는 다른 전문가들과 광범위하게 활성화되는 경향이 있는 반면(협업적), 다른 전문가는 특정 전문가 하위 집합과만 활성화되는 경향이 있습니다(전문적).

연구 결과 대부분의 전문가가 과도하게 협업적임을 밝혀냈습니다. 이는 여러 가속기에 토큰을 반복적으로 전송하여 통신 오버헤드 증가로 이어집니다. 이 문제를 해결하기 위해 연구진은 협업 제약 라우팅(C2R) 전략을 제안했습니다. C2R 전략은 보다 전문화된 전문가 그룹을 장려하고 전문가 활용도를 개선하며, 전문가 전문화를 활용하는 효율적인 MoE 구현을 제공합니다.

실험 결과, LLaMA-MoE 및 Qwen-MoE에서 10가지 하위 NLP 벤치마크를 통해 평균 0.51% 및 0.33%의 성능 향상을 달성했습니다. 또한 GPU 간의 all2all 통신 비용을 줄여 MegaBlocks와 같은 기존 최고 성능에 비해 추가적으로 20%-30%의 총 실행 시간을 단축시켰습니다.

이 연구는 MoE 모델의 효율성을 향상시키는 데 있어 새로운 가능성을 제시하며, 향후 LLM 개발 및 배포에 중요한 영향을 미칠 것으로 예상됩니다. C2R 전략은 단순한 부하 분산을 넘어, 전문가 간의 상호 작용 패턴을 분석하고 제어함으로써 MoE의 한계를 극복하는 혁신적인 접근 방식입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Advancing MoE Efficiency: A Collaboration-Constrained Routing (C2R) Strategy for Better Expert Parallelism Design

Published:  (Updated: )

Author: Mohan Zhang, Pingzhi Li, Jie Peng, Mufan Qiu, Tianlong Chen

http://arxiv.org/abs/2504.01337v2