안전한 LLM 미세 조정의 혁신: SafeMERGE 소개
본 기사는 대규모 언어 모델(LLM)의 미세 조정 과정에서 안전성을 유지하면서 성능을 향상시키는 SafeMERGE라는 새로운 기술에 대해 소개합니다. 선택적 계층별 모델 병합을 통해 안전성을 유지하면서 작업 효율성까지 높이는 SafeMERGE의 혁신적인 접근 방식과 그 효과에 대해 자세히 설명합니다.

최근 대규모 언어 모델(LLM)의 발전은 눈부시지만, 하류 작업에 대한 미세 조정 과정에서 안전성이 저하될 수 있다는 우려가 제기되어 왔습니다. Aladin Djuhera 등의 연구진은 이러한 문제를 해결하기 위해 SafeMERGE라는 혁신적인 솔루션을 제안했습니다.
SafeMERGE는 미세 조정된 모델과 안전성이 확보된 모델의 레이어를 선택적으로 병합하는 방식으로 작동합니다. 핵심은 코사인 유사도 기준을 사용하여 안전하지 않은 행동을 보이는 레이어만 선택적으로 병합하는 것입니다. 이는 안전성을 유지하면서 작업 유용성을 동시에 향상시키는 효과적인 전략입니다.
연구진은 Llama-2-7B-Chat와 Qwen-2-7B-Instruct 모델을 사용하여 GSM8K와 PubMedQA 작업에서 SafeMERGE를 평가했습니다. 다양한 병합 전략을 탐색한 결과, SafeMERGE는 다른 기준 모델들에 비해 유해한 출력을 일관되게 줄이는 동시에 성능 저하 없이, 심지어 성능 향상을 보이는 경우도 확인했습니다.
핵심은 무엇일까요? SafeMERGE는 단순히 기존 모델을 수정하는 것이 아니라, 선택적, 부분 공간 기반, 계층별 병합이라는 세 가지 특징을 통해 기존의 미세 조정 및 후처리 방식의 한계를 극복합니다. 이는 안전성 저하 위험 없이 LLM을 미세 조정할 수 있는 효과적인 안전장치를 제공한다는 것을 의미합니다.
이 연구는 LLM의 안전한 활용에 대한 새로운 가능성을 제시합니다. SafeMERGE는 단순한 기술적 개선을 넘어, 책임감 있는 AI 개발과 윤리적인 AI 활용에 대한 중요한 이정표가 될 것으로 기대됩니다. 앞으로 SafeMERGE의 발전과 실제 서비스 적용에 대한 지속적인 관심과 연구가 필요할 것입니다.
연구진: Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Syed Zawad, Holger Boche
Reference
[arxiv] SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging
Published: (Updated: )
Author: Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Syed Zawad, Holger Boche
http://arxiv.org/abs/2503.17239v1