혁신적인 AI 미세 조정: 모델의 무결성을 깨는 마법, 마스크 미세 조정(MFT)


중국과학원 연구팀이 발표한 마스크 미세 조정(MFT)은 LLM 미세 조정의 새로운 패러다임으로, 모델의 일부를 마스크하여 성능을 향상시키는 기법입니다. 다양한 실험 결과, 일관된 성능 향상을 보이며 기존의 모델 압축 기술을 넘어서는 새로운 가능성을 제시합니다.

related iamge

지금까지 대규모 언어 모델(LLM) 미세 조정은 모델의 완전성을 유지하는 것을 당연시했습니다. 하지만 중국과학원 소속 Zhang Mingyuan 박사 연구팀이 이러한 상식에 도전장을 던졌습니다. 그들이 발표한 논문, "Boosting Large Language Models with Mask Fine-Tuning" 에서는 놀랍게도 모델의 일부를 의도적으로 '마스크'하여 성능을 향상시키는 새로운 방법, 마스크 미세 조정(MFT) 을 제시했습니다.

모델의 무결성? 깨뜨려 보세요!

MFT는 기존의 LLM 미세 조정 방식과는 완전히 다릅니다. 기존 방식은 모델 전체를 그대로 유지하면서 학습하는 반면, MFT는 특정 부분을 선택적으로 마스크(비활성화)하고, 나머지 부분만을 학습시킵니다. 이러한 '부분적인 학습'이 오히려 전체적인 성능 향상으로 이어진다는 사실이 놀랍습니다.

실험 결과: 놀라운 성능 향상!

연구팀은 다양한 도메인과 백본 모델(LLaMA2-7B, 3.1-8B 등)을 사용하여 MFT의 성능을 테스트했습니다. 그 결과, 코딩 작업에서 평균 1.95%~1.88%의 성능 향상이라는 괄목할 만한 결과를 얻었습니다. 이는 MFT가 다양한 상황에서도 일관된 성능 향상을 가져온다는 것을 의미합니다.

마스크 학습의 새로운 지평

MFT는 기존의 마스크 학습(주로 모델 압축을 위한 네트워크 가지치기에서 사용)을 한 단계 끌어올렸습니다. 단순한 모델 경량화를 넘어, 모델의 성능 자체를 향상시키는 새로운 방법으로 자리매김한 것입니다. 이 연구는 완벽하게 훈련된 모델에 MFT를 적용하여 기존의 LLM 훈련 프로토콜을 자연스럽게 업데이트하는 방법을 제시하고 있습니다.

미래 전망

MFT는 LLM 미세 조정 분야에 혁신적인 변화를 가져올 잠재력을 지니고 있습니다. 앞으로 MFT의 다양한 응용과 더욱 심도 있는 연구를 통해 AI 기술 발전에 큰 영향을 미칠 것으로 기대됩니다. 모델의 무결성에 대한 고정관념을 깨고 새로운 가능성을 제시한 이 연구는 AI 분야의 흥미로운 전환점이 될 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Boosting Large Language Models with Mask Fine-Tuning

Published:  (Updated: )

Author: Mingyuan Zhang, Yue Bai, Huan Wang, Yizhou Wang, Qihua Dong, Yun Fu

http://arxiv.org/abs/2503.22764v1