섬뜩한 AI의 그림자: 파인튜닝 활성화 백도어 공격 (FAB)
본 기사는 파인튜닝 활성화 백도어(FAB) 공격에 대한 최신 연구 결과를 소개합니다. FAB은 메타 러닝을 활용하여 파인튜닝 시점에만 악성 행위를 나타내는 새로운 공격 기법으로, AI 보안에 대한 심각한 위협을 제기합니다. 연구진은 다양한 LLM과 악성 행위 유형에서 FAB의 효과를 입증하며, AI 시스템의 안전성 확보를 위한 더욱 철저한 노력의 필요성을 강조합니다.

최근, 인공지능(AI) 분야에서 충격적인 연구 결과가 발표되었습니다. Thibaud Gloaguen, Mark Vero, Robin Staab, Martin Vechev 등 연구진은 파인튜닝 활성화 백도어(FAB: Finetuning-Activated Backdoor) 라는 새로운 공격 기법을 공개하며 AI 보안에 대한 심각한 우려를 제기했습니다.
기존에는 대규모 언어 모델(LLM)의 파인튜닝은 안전하고 예측 가능한 과정으로 여겨졌습니다. 하지만 연구진은 악의적인 행위자들이 메타 러닝 기법을 이용하여, 표면적으로는 정상적인 LLM을 만들지만, 사용자가 파인튜닝을 시도하는 순간 악성 행위를 드러내는 모델을 생성할 수 있음을 밝혔습니다.
FAB 공격의 핵심은 은폐성입니다. 악성 코드는 파인튜닝 전에는 전혀 감지되지 않고, 일반적인 기능을 유지합니다. 하지만 사용자가 자신만의 데이터셋으로 파인튜닝을 실행하는 순간, 숨겨진 백도어가 활성화되어 원치 않는 행동(광고 삽입, 명령 거부, 시스템 탈옥 등)을 유발합니다.
연구진은 다양한 LLM과 세 가지 유형의 악성 행위(광고 삽입, 명령 거부, 시스템 탈옥)를 대상으로 FAB 공격의 효과를 실험했습니다. 놀랍게도, FAB 백도어는 사용자의 파인튜닝 설정(데이터셋, 단계 수, 스케줄러 등)에 관계없이 강력한 효과를 보였습니다.
이 연구는 파인튜닝의 안전성에 대한 기존의 믿음을 송두리째 뒤흔드는 결과입니다. LLM의 복잡성을 악용한 새로운 공격 벡터가 발견된 것입니다. 이는 단순히 기술적 문제를 넘어, AI 시스템의 신뢰성과 안전성에 대한 근본적인 질문을 던집니다. 앞으로 AI 개발 및 활용에 있어 보안에 대한 더욱 철저한 고려와 대비가 절실히 필요해졌습니다.
주요 내용 요약:
- FAB(Finetuning-Activated Backdoor): 파인튜닝 과정에서만 악성 행위가 발현되는 새로운 공격 기법.
- 메타 러닝 활용: 악성 행위를 은폐하고 파인튜닝 시점에 활성화시키는 기술.
- 강력한 효과: 다양한 LLM과 악성 행위 유형에서 효과 입증, 파인튜닝 설정에 대한 강건성 확인.
- AI 보안의 위협: 파인튜닝의 안전성에 대한 기존 인식을 뒤흔드는 중대한 발견.
Reference
[arxiv] Finetuning-Activated Backdoors in LLMs
Published: (Updated: )
Author: Thibaud Gloaguen, Mark Vero, Robin Staab, Martin Vechev
http://arxiv.org/abs/2505.16567v1