DynMoLE: 하이브리드 라우팅으로 LLM 미세 조정의 새로운 지평을 열다
리덩춘 박사 연구팀이 개발한 DynMoLE은 Tsallis 엔트로피 기반의 동적 라우팅과 보조 손실 함수를 통해 기존 MoLE의 한계를 극복하고 LLM 미세 조정의 성능을 크게 향상시켰습니다. 상식 추론 벤치마크에서 LoRA와 MoLA를 능가하는 성능을 보였으며, LLM 분야의 발전에 크게 기여할 것으로 예상됩니다.

최근 지시어 기반의 대규모 언어 모델(LLM) 미세 조정이 자연어 처리(NLP) 분야에서 괄목할 만한 성과를 거두고 있습니다. 그 중에서도 LoRA(Low-Rank Adaptation) 의 효율성과 MoE(Mixture of Experts) 모델의 다양성을 결합한 MoLE(Mixture of LoRA Experts) 는 여러 하위 작업을 효율적으로 처리할 수 있는 매개변수 효율적인 미세 조정(PEFT) 방법으로 주목받고 있습니다.
하지만 기존 MoLE의 라우팅 메커니즘은 계산 효율성과 예측 정확도 사이의 절충이 필요했고, 다양한 트랜스포머 계층에 걸친 다양한 전문가 선택 요구를 충족하지 못했습니다. 리덩춘(Dengchun Li) 박사를 비롯한 연구팀은 이러한 문제를 해결하기 위해 DynMoLE을 제안했습니다.
DynMoLE은 Tsallis 엔트로피 기반의 동적 라우팅 전략을 사용합니다. 라우터의 확률 분포의 Tsallis 엔트로피를 기반으로 전문가 선택을 동적으로 조정하여 라우터의 불확실성을 줄이고, 안정성을 높이며, 전문가 참여의 균형을 유지합니다. 이는 더 빠른 수렴과 향상된 모델 성능으로 이어집니다.
뿐만 아니라, 연구팀은 Tsallis 엔트로피를 기반으로 한 보조 손실 함수를 도입하여 불확실성을 줄이고 수렴을 유도하여 훈련의 안정성과 성능을 향상시켰습니다.
상식 추론 벤치마크에서의 실험 결과는 DynMoLE의 탁월함을 보여줍니다. DynMoLE은 LoRA보다 9.6%, 기존 최첨단 MoLE 방법인 MoLA보다 2.3% 향상된 성능을 기록했습니다. 또한, 철저한 ablation study를 통해 DynMoLE의 핵심 구성 요소의 기여도를 평가했습니다.
DynMoLE은 단순한 성능 향상을 넘어, LLM 미세 조정의 새로운 패러다임을 제시합니다. Tsallis 엔트로피를 활용한 동적 라우팅과 보조 손실 함수의 도입은 향후 LLM 연구의 중요한 방향을 제시할 것으로 기대됩니다. 이 연구는 LLM의 효율성과 성능을 동시에 개선하려는 노력의 중요한 이정표가 될 것입니다. 앞으로 더욱 발전된 LLM 기술을 기대해 볼 수 있습니다.
Reference
[arxiv] DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism
Published: (Updated: )
Author: Dengchun Li, Naizheng Wang, Zihao Zhang, Haoyang Yin, Lei Duan, Meng Xiao, Mingjie Tang
http://arxiv.org/abs/2504.00661v1