RMM: 강화 학습으로 모델 병합의 한계를 뛰어넘다!
본 기사는 강화 학습 기반의 혁신적인 모델 병합 프레임워크인 RMM(Reinforced Model Merging)에 대해 소개합니다. RMM은 기존 모델 병합 방법의 한계를 극복하고, 에지 디바이스에서의 활용 가능성을 높이며, 속도를 획기적으로 향상시켰습니다. 다양한 실험 결과 최첨단 성능을 달성한 RMM은 모델 병합 분야의 새로운 패러다임을 제시할 것으로 기대됩니다.

최근 대규모 언어 모델(LLM)의 눈부신 발전과 함께, 여러 모델을 효율적으로 결합하는 모델 병합 기술이 뜨거운 감자로 떠올랐습니다. 특히, 새롭게 모델을 훈련시키지 않고 기존 모델의 매개변수를 활용하는 훈련 없는 모델 병합 기술은 학계와 산업계 모두의 이목을 집중시키고 있습니다.
하지만 기존의 훈련 없는 모델 병합 방법들은 두 가지 큰 난관에 직면해 있었습니다. 첫째, 모든 매개변수를 똑같이 다루다 보니 성능 저하가 발생하는 경우가 많았습니다. 둘째, 최적의 병합 구조를 찾는 데 사용되는 탐색 기반 알고리즘의 효율성이 떨어지는 문제가 있었습니다.
이러한 문제점을 해결하기 위해, Jiaqi Han 등 7명의 연구진이 RMM(Reinforced Model Merging) 이라는 혁신적인 프레임워크를 제시했습니다. RMM은 강화 학습의 원리를 모델 병합에 도입한 것이 특징입니다. 마치 게임처럼, 모델 병합 과정을 환경(environment)과 에이전트(agent)가 상호 작용하는 방식으로 구성하여, 에이전트가 최적의 병합 아키텍처를 찾아나가는 것입니다. 각 층(layer)마다 병합 동작을 수행하며, 마치 전략 게임처럼 최적의 전략을 찾아나가는 것이죠.
가장 주목할 만한 점은 RMM이 원 모델에 대한 기울기 계산 없이 작동한다는 것입니다. 이는 막대한 계산 자원이 필요한 기존 방법들과 달리, 에지 디바이스와 같은 제한된 환경에서도 모델 병합을 가능하게 만듭니다. 또한, 평가 과정에서 데이터 하위 집합을 활용하여 보상 피드백 단계의 속도를 최대 100배까지 향상시켰습니다. 이는 마치 고속도로를 건설하여 병목 현상을 해결한 것과 같습니다.
다양한 영상 및 자연어 처리 데이터셋에 대한 광범위한 실험 결과, RMM은 기존 방법들을 뛰어넘는 최첨단 성능을 달성했습니다. RMM의 코드는 GitHub에서 확인할 수 있습니다.
RMM은 단순한 모델 병합 기술을 넘어, 강화 학습을 통해 효율적이고 강력한 모델을 구축하는 새로운 패러다임을 제시합니다. 앞으로 이 기술이 어떻게 발전하고 다양한 분야에 적용될지 기대됩니다.
Reference
[arxiv] Reinforced Model Merging
Published: (Updated: )
Author: Jiaqi Han, Jingwen Ye, Shunyu Liu, Haofei Zhang, Jie Song, Zunlei Feng, Mingli Song
http://arxiv.org/abs/2503.21272v1