SplitFrozen: 이종 자원 제약 장치에서의 LLM 미세 조정 혁신


SplitFrozen은 이종 자원 제약 장치에서 대규모 언어 모델(LLM)의 효율적인 미세 조정을 위한 혁신적인 분산 학습 프레임워크입니다. 장치 측 모델 계층을 고정하고 서버 측에서 미세 조정을 중앙화하는 전략을 통해 계산 오버헤드를 줄이고, LoRA와 파이프라인 병렬 처리를 통해 훈련 효율을 높입니다. 실험 결과, 기존 방법보다 높은 정확도와 낮은 계산 비용, 훈련 시간을 달성하여 LLM의 실제 적용 가능성을 크게 높였습니다.

related iamge

SplitFrozen: 한계를 뛰어넘는 LLM 미세 조정의 혁신

개인 맞춤형 AI 에이전트 구현을 위해 개인의 개인 데이터 상에서 대규모 언어 모델(LLM)을 미세 조정하는 것이 중요해지고 있습니다. 하지만 자원 제약이 심한 에지 장치에서 LLM을 미세 조정하는 것은 계산 오버헤드, 장치 이질성, 데이터 불균형 등의 어려움에 직면합니다.

마젠타(Jian Ma) 등 연구진이 발표한 논문 “SplitFrozen: 분할 학습으로 장치 측 모델 고정을 통한 이종 자원 제약 장치에서의 LLM 미세 조정”은 이러한 문제에 대한 획기적인 해결책을 제시합니다. SplitFrozen이라는 새로운 분산 학습 프레임워크를 통해, 장치 측 모델 계층을 전략적으로 고정하고 서버 측에서 매개변수 효율적인 미세 조정을 중앙화함으로써 LLM 미세 조정의 효율성을 극대화합니다.

SplitFrozen의 핵심 전략:

  • 계층 분할: LLM을 장치 측 고정 계층과 서버 측 미세 조정 계층으로 분할합니다. 이종 자원 제약 장치는 순전파만 수행합니다.
  • Low-Rank Adaptation (LoRA) 통합: 서버 측 훈련 비용을 최소화하기 위해 LoRA를 서버 측 계층에 통합합니다.
  • 파이프라인 병렬 처리: 장치-서버 계산을 분리하고 분해된 역전파를 활용하여 훈련 효율을 더욱 향상시킵니다.

놀라운 성능:

GPT-2와 다양한 데이터셋(MRPC, MNLI-matched, SST-2)을 사용한 실험 결과, SplitFrozen은 기존 방법인 FedLoRA와 SplitLoRA에 비해 극도로 불균형적인 데이터 환경에서 최대 69.4%의 모델 정확도 향상을 보였습니다. 또한, 장치 측 계산은 최대 86.8% 감소하고 총 훈련 시간은 50.2% 단축되었습니다. Llama-3.2 모델과 GSM8K 데이터셋을 사용한 콘텐츠 생성 작업에서도 SplitFrozen의 확장성이 입증되었습니다.

미래를 향한 전망:

SplitFrozen은 에지 장치에서의 LLM 미세 조정에 대한 새로운 가능성을 제시합니다. 자원 제약이 심한 환경에서도 개인 맞춤형 AI 서비스를 제공할 수 있는 길을 열어주는 이 연구는 AI 기술의 발전과 실생활 적용에 중요한 이정표가 될 것입니다. 앞으로 더욱 다양한 환경과 모델에 적용되어 AI 기술의 대중화에 기여할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] SplitFrozen: Split Learning with Device-side Model Frozen for Fine-Tuning LLM on Heterogeneous Resource-Constrained Devices

Published:  (Updated: )

Author: Jian Ma, Xinchen Lyu, Jun Jiang, Qimei Cui, Haipeng Yao, Xiaofeng Tao

http://arxiv.org/abs/2503.18986v1