D²MoE: 에지 장치에서의 효율적인 MoE 기반 LLM 서비스를 위한 혁신적인 접근 방식


D²MoE는 에지 장치에서 MoE 기반 LLM의 효율성을 획기적으로 향상시키는 새로운 프레임워크입니다. 매트료시카 인형 구조를 활용한 MWQ와 HEBF 스케줄링 알고리즘을 통해 처리량은 최대 1.39배 향상, 메모리 사용량은 최대 53% 감소시키면서 정확도는 유지했습니다.

related iamge

최근 급증하는 인공지능(AI) 기술 발전과 함께 대규모 언어 모델(LLM)이 주목받고 있습니다. 그러나 LLM은 막대한 연산 자원을 필요로 하여 에지 장치와 같은 자원 제약 환경에서의 활용에 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 등장한 것이 바로 전문가 혼합(MoE) 모델입니다. MoE는 지능과 연산 비용 사이의 균형을 잘 맞추는 스파스한 LLM 변형으로 주목받고 있지만, 에지 장치에서의 실시간 추론 서비스에는 여전히 부족함이 있습니다.

기존 연구는 양자화, 가지치기, 병합과 같은 모델 압축 기술을 적용하여 MoE의 복잡성을 제한하려고 시도했습니다. 하지만 이러한 정적 최적화 전략은 다양한 요청을 처리할 때 항상 최적의 성능을 보장하지 못하며, 에지 장치의 서비스 품질 저하로 이어질 수 있습니다.

왕하동, 주기화, 홍지충, 국송 연구팀은 이러한 한계를 극복하기 위해 D²MoE(Dual Routing and Dynamic Scheduling) 이라는 알고리즘-시스템 공동 설계 프레임워크를 제안했습니다. D²MoE는 다양한 작업 요구사항에 맞춰 각 전문가에게 가장 적합한 비트 너비를 동적으로 할당합니다.

특히, 연구팀은 매트료시카 인형의 중첩 구조에서 영감을 얻어 MWQ(Matryoshka Weight Quantization) 라는 기법을 제안했습니다. MWQ는 비트 중첩 방식으로 전문가 가중치를 점진적으로 압축하여 런타임 메모리 사용량을 줄입니다. 여기에 더하여, I/O-연산 파이프라인을 최적화하고 HEBF(Hottest-Expert-Bit-First) 원칙을 따르는 휴리스틱 스케줄링 알고리즘을 설계했습니다. HEBF는 제한된 메모리 환경에서 I/O와 연산 큐 간 전문가 병렬 처리를 극대화하여 전문가 로딩 대기 시간을 크게 줄입니다.

실제 에지 장치에서의 평가 결과, D²MoE는 최신 에지 장치 추론 프레임워크에 비해 추론 처리량을 최대 1.39배 향상시키고, 최대 메모리 사용량을 최대 53% 감소시키는 놀라운 성능을 보였습니다. 동시에 INT8 수준과 비슷한 정확도를 유지했습니다. 이는 에지 장치에서의 LLM 활용에 새로운 가능성을 제시하는 획기적인 연구 결과입니다. D²MoE는 단순히 모델 압축을 넘어, 동적 자원 할당과 스케줄링 알고리즘의 혁신적인 조합을 통해 에지 컴퓨팅 환경에서 LLM의 효율성을 극대화하는 데 성공했습니다.

향후 연구는 D²MoE의 다양한 에지 장치 및 LLM 모델에 대한 적용 가능성을 더욱 확장하고, 에너지 효율성을 더욱 개선하는 방향으로 진행될 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving

Published:  (Updated: )

Author: Haodong Wang, Qihua Zhou, Zicong Hong, Song Guo

http://arxiv.org/abs/2504.15299v1