StarFT: 제로샷 모델의 강건한 파인튜닝을 위한 새로운 접근법
김영현 등 6명의 연구진이 개발한 StarFT는 제로샷 모델의 파인튜닝 과정에서 발생하는 강건성 저하 문제를 해결하는 새로운 프레임워크입니다. 잘못된 특징 학습을 방지하는 정규화 기법을 통해, Waterbirds 그룹 시프트 시나리오에서 기존 방법 대비 괄목할 만한 성능 향상을 달성했습니다.

CLIP과 같은 최근의 제로샷 모델들은 방대한 데이터를 통해 강건한 표현 학습에 성공했습니다. 하지만 이러한 모델들을 다른 하위 작업에 파인튜닝할 경우, 그 강건성은 쉽게 저하될 수 있다는 문제점이 존재합니다. 기존 연구는 이 현상을 도메인 이동의 관점에서 해석하고, 원래 도메인을 최대한 보존하는 파인튜닝 방법을 개발해왔습니다.
하지만 김영현 등 6명의 연구자들은 새로운 관점을 제시합니다. 제한된 데이터로 파인튜닝된 모델은 배경이나 질감과 같이 사람에게는 무의미한 잘못된 특징(spurious features)을 학습하기 쉽다는 것입니다. 이들은 이 문제를 해결하기 위해 StarFT (Spurious Textual Alignment Regularization) 라는 새로운 프레임워크를 제안했습니다.
StarFT는 잘못된 특징 학습을 방지하여 제로샷 모델의 강건성을 향상시키는 데 초점을 맞춥니다. 핵심 아이디어는 잘못된 특징이 포함된 라벨에 대한 출력 분포를 원래 제로샷 모델의 출력 분포와 정렬하는 정규화를 도입하는 것입니다. 이를 통해 모델이 관련 없는 특징을 더 이상 추출하지 않도록 합니다. 연구진은 최신 언어 모델을 활용하여 잠재적으로 혼란을 야기할 수 있는 특징을 강조하는 대체 텍스트 설명을 생성하고, 이를 통해 잘못된 특징이 포함된 라벨을 얻습니다.
실험 결과는 StarFT의 강건한 일반화 성능과 새로운 특징을 확인시켜줍니다. 특히 Waterbirds 그룹 시프트 시나리오에서는 최악 그룹 정확도가 14.30%, 평균 정확도가 3.02% 향상되는 놀라운 결과를 보였습니다. 이는 기존의 강건한 파인튜닝 기법들이 성능 저하를 보인 것과는 대조적인 결과입니다. StarFT는 제로샷 그룹 강건성을 향상시키고, 제로샷 분류 성능도 개선하는 효과를 보였습니다.
이 연구는 제로샷 모델의 파인튜닝에 대한 새로운 시각을 제시하며, 더욱 강건하고 신뢰할 수 있는 AI 모델 개발에 기여할 것으로 기대됩니다. 잘못된 특징 학습이라는 새로운 문제점을 정의하고, 이를 해결하기 위한 효과적인 방법론을 제시한 점이 큰 의의를 갖습니다. 앞으로 StarFT가 다양한 분야에서 활용되어 AI 기술 발전에 기여할 것을 기대해봅니다. 🧐
Reference
[arxiv] StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment
Published: (Updated: )
Author: Younghyun Kim, Jongheon Jeong, Sangkyung Kwak, Kyungmin Lee, Juho Lee, Jinwoo Shin
http://arxiv.org/abs/2505.13232v2