쿼리 없이, 접근 없이: AI 모델의 새로운 보안 위협, VDBA
중국과학원 연구팀이 개발한 VDBA는 기존의 AI 모델 공격 방식의 한계를 극복하고, 피해 모델 접근 없이도 높은 공격 성공률을 달성하여 LLM을 포함한 최첨단 NLP 모델의 심각한 보안 취약성을 드러냈습니다. 이 연구는 AI 시대의 보안에 대한 중요한 시사점을 제공합니다.

최근 몇 년 동안, 인공지능(AI) 모델, 특히 대규모 언어 모델(LLM)의 발전은 눈부십니다. 하지만 이러한 기술의 발전과 함께, AI 모델의 보안 취약성에 대한 우려 또한 커지고 있습니다. 중국과학원 소속 연구팀의 최근 논문, "No Query, No Access"는 이러한 우려에 더욱 불을 지피는 흥미로운 연구 결과를 발표했습니다.
기존 방식의 한계 극복: VDBA의 등장
기존의 텍스트 기반 적대적 공격은 대상 모델에 대한 정보, 막대한 쿼리, 혹은 훈련 데이터 접근이 필요했습니다. 하지만 실제 상황에서는 이러한 조건들을 충족하기 어렵습니다. Wang 등의 연구팀은 이러한 한계를 극복하기 위해 피해자 데이터 기반 적대적 공격(VDBA) 을 제시합니다. VDBA는 대상 모델에 직접 접근하지 않고, 공개적으로 이용 가능한 사전 훈련된 모델과 군집화 기법을 사용하여 대체 모델을 생성합니다. 이를 통해 피해 모델에 대한 정보 없이도 효과적인 공격을 수행할 수 있습니다.
계층적 대체 모델 및 다양한 공격 방법 활용
단일 대체 모델의 실패 가능성을 줄이기 위해, 연구팀은 계층적 대체 모델 설계를 제안했습니다. 또한, 다양한 적대적 예시 생성 방법을 사용하여 유사성과 공격 효과가 높은 적대적 예시를 선택하는 전략을 채택했습니다. 이러한 다각적인 접근 방식은 공격 성공률을 크게 향상시켰습니다.
실험 결과 및 그 의미
Emotion 및 SST5 데이터셋을 사용한 실험 결과, VDBA는 기존 최첨단 기법들을 능가하는 성능을 보였습니다. 공격 성공률을 무려 52.08% 향상시켰을 뿐만 아니라, 쿼리 횟수는 0으로 줄였습니다. 더욱 놀라운 것은, Qwen2 및 GPT 계열과 같은 최첨단 LLM에 대한 공격에서도 API 접근 없이 45.99%라는 높은 공격 성공률을 달성했다는 점입니다. 이는 최첨단 NLP 모델들이 여전히 심각한 보안 위협에 직면하고 있음을 시사합니다. (코드는 https://anonymous.4open.science/r/VDBA-Victim-Data-based-Adversarial-Attack-36EC/ 에서 확인 가능합니다.)
결론 및 시사점
VDBA는 AI 모델의 보안 취약성에 대한 심각한 우려를 제기합니다. 향후 AI 모델의 안전성을 확보하기 위한 더욱 강력한 보안 기술 개발이 시급하며, 연구팀의 발견은 이러한 노력에 중요한 기여를 할 것으로 기대됩니다. 이 연구는 단순히 기술적 발전의 이야기가 아니라, AI 시대의 보안에 대한 근본적인 질문을 던지는 중요한 사건입니다.
Reference
[arxiv] No Query, No Access
Published: (Updated: )
Author: Wenqiang Wang, Siyuan Liang, Yangshijie Zhang, Xiaojun Jia, Hao Lin, Xiaochun Cao
http://arxiv.org/abs/2505.07258v1