LoRA 간섭 해결: 강력한 모델 병합을 위한 직교 부분 공간


장하오보와 주지아유 연구팀은 LoRA 모델 병합 시 발생하는 성능 저하 문제를 해결하기 위해 OSRM(Orthogonal Subspaces for Robust model Merging)이라는 새로운 방법을 제안했습니다. OSRM은 모델 매개변수와 데이터 분포 간의 상호작용을 고려하여, 작업 간의 간섭을 최소화하고, 개별 작업의 성능을 유지하면서 효율적인 모델 병합을 가능하게 합니다.

related iamge

대규모 언어 모델 병합의 혁신: LoRA 간섭 문제 해결

최근 몇 년간 대규모 언어 모델(LLM)의 발전은 눈부십니다. 하지만 개별 작업에 맞게 LLM을 미세 조정하는 것은 비용과 저장 공간 측면에서 부담이 큽니다. 이러한 문제를 해결하기 위해, 여러 개의 작업별 모델을 추가 훈련 없이 하나의 다중 작업 모델로 통합하는 모델 병합 기술이 주목받고 있습니다.

하지만 기존의 모델 병합 방법들은 LoRA(Low-Rank Adaptation) 를 사용하여 미세 조정된 모델에는 효과적이지 못했습니다. LoRA는 모델의 매개변수를 효율적으로 조정하는 기법이지만, 병합 과정에서 성능 저하가 발생하는 문제가 있었습니다.

장하오보(Haobo Zhang)주지아유(Jiayu Zhou) 연구팀은 이러한 문제의 원인을 모델 매개변수와 데이터 분포 간의 상호 작용에서 찾았습니다. 그들은 이 상호 작용으로 인해 한 작업에 대한 업데이트가 다른 작업의 출력에 부정적인 영향을 미친다는 사실을 밝혀냈습니다.

연구팀은 이 문제를 해결하기 위해 Orthogonal Subspaces for Robust model Merging (OSRM) 이라는 새로운 방법을 제안했습니다. OSRM은 미세 조정 이전에 LoRA 부분 공간을 제한하여, 특정 작업에 관련된 업데이트가 다른 작업에 악영향을 미치지 않도록 합니다.

OSRM의 핵심은 직교 부분 공간을 활용하여 서로 다른 작업에 대한 업데이트가 서로 간섭하지 않도록 하는 것입니다. 이를 통해 각 작업의 성능을 유지하면서 효율적으로 모델을 병합할 수 있습니다. 더욱이 OSRM은 대부분의 기존 병합 알고리즘과 호환되므로, 기존 시스템에 쉽게 통합할 수 있습니다.

8개의 데이터셋과 3개의 널리 사용되는 LLM, 그리고 2개의 대규모 LLM을 사용한 광범위한 실험 결과, OSRM은 모델 병합 성능을 향상시킬 뿐만 아니라 개별 작업의 정확도도 유지하는 것으로 나타났습니다. 또한, 병합의 하이퍼파라미터에 대한 강건성도 뛰어났습니다.

이 연구는 모델 병합에서 데이터-매개변수 상호 작용의 중요성을 강조하고, LoRA 모델 병합을 위한 간편하고 효과적인 해결책을 제시합니다. 이는 LLM의 효율적인 활용과 다양한 작업에 대한 적용 가능성을 높이는 획기적인 성과로 평가받을 수 있습니다.


주요 내용 요약:

  • LoRA 모델 병합의 성능 저하 문제를 해결
  • 모델 매개변수와 데이터 분포 간의 상호 작용을 고려한 새로운 방법 제시 (OSRM)
  • 8개 데이터셋, 다양한 LLM을 이용한 실험으로 효과 검증
  • 기존 병합 알고리즘과 호환 가능한 플러그 앤 플레이 솔루션 제공

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Unraveling LoRA Interference: Orthogonal Subspaces for Robust Model Merging

Published:  (Updated: )

Author: Haobo Zhang, Jiayu Zhou

http://arxiv.org/abs/2505.22934v1