MASS: 적응형 부분 공간 선택을 통한 모델 병합의 혁신


이탈리아 연구진이 개발한 MASS 모델은 적응형 부분 공간 선택을 통해 여러 미세 조정 모델을 효율적으로 통합하는 새로운 모델 병합 기술입니다. 저차원 분해와 데이터 없는 라우터를 활용하여 추가적인 훈련 없이도 최첨단 성능을 달성하며, 기존 모델의 평균 정확도를 최대 98%까지 회복합니다. 효율성과 성능을 동시에 만족하는 MASS는 딥러닝 분야의 발전에 크게 기여할 것으로 예상됩니다.

related iamge

꿈의 모델 병합: MASS가 열어가는 새로운 지평

최근 딥러닝 분야에서 모델 병합(Model Merging)이 주목받고 있습니다. 여러 개의 미세 조정된 모델을 하나로 통합하여 효율성을 높이는 기술이죠. 하지만 기존 모델 병합 방법들은 개별 모델의 성능에는 미치지 못하는 아쉬움을 가지고 있었습니다.

이탈리아 연구진 Donato Crisostomi 외 7명이 발표한 논문 “MASS: MoErging through Adaptive Subspace Selection”은 이러한 한계를 뛰어넘는 혁신적인 모델 병합 기술을 제시합니다. MASS는 적응형 부분 공간 선택을 통해 여러 모델의 강점을 결합하면서도 최첨단 성능을 유지하는 놀라운 결과를 보여줍니다.

MASS의 핵심: 저차원 분해와 데이터 없는 라우터

MASS의 비결은 각 작업에 대한 업데이트의 저차원 분해(low-rank decomposition)에 있습니다. 핵심적인 특징만 추출하여 저장하고, 이를 공유 모델에 통합하는 것이죠. 마치 중요한 정보만 담은 요약본을 만드는 것과 같습니다. 추론 과정에서는 데이터가 필요없는 비모수적 라우터(non-parametric, data-free router)가 입력 데이터에 가장 적합한 부분 공간을 선택하여 해당 작업에 특화된 블록을 활성화시켜줍니다.

이러한 과정은 추가적인 학습 없이 이루어지며, 단일 사전 학습된 모델에 비해 저장 공간은 약 2배, 추론 시간은 두 번의 패스만 추가되는 수준으로 매우 효율적입니다. 작업 수와 상관없이 일관된 효율성을 유지한다는 점이 특히 주목할 만합니다.

놀라운 성능: 기존 최고 성능 경신

연구진은 ViT-B-16, ViT-B-32, ViT-L-14를 사용하여 CLIP 기반 이미지 분류 작업에서 8, 14, 20개의 작업에 대한 벤치마크를 진행했습니다. 그 결과, MASS는 기존 최고 성능을 뛰어넘는 놀라운 결과를 달성했습니다. 특히 개별 미세 조정 모델의 평균 정확도를 최대 98%까지 회복하는 성능을 보여주었습니다.

미래를 위한 약속: 효율성과 성능의 완벽한 조화

MASS는 단순히 모델 병합 기술의 발전을 넘어, 효율성과 성능을 동시에 잡을 수 있는 가능성을 보여줍니다. 이는 딥러닝 모델의 크기와 복잡성을 줄이고, 다양한 작업에 대한 적용 가능성을 높이는 데 크게 기여할 것으로 기대됩니다. MASS는 딥러닝의 미래를 밝히는 한 줄기 빛과 같습니다. 앞으로 더욱 발전된 모델 병합 기술의 등장이 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] MASS: MoErging through Adaptive Subspace Selection

Published:  (Updated: )

Author: Donato Crisostomi, Alessandro Zirilli, Antonio Andrea Gargiulo, Maria Sofia Bucarelli, Simone Scardapane, Fabrizio Silvestri, Iacopo Masi, Emanuele Rodolà

http://arxiv.org/abs/2504.05342v1