첨단 AI 이미지 생성 모델의 취약점 공격: 은유를 활용한 새로운 위협 등장!


중국 연구진이 개발한 MJA는 은유를 활용해 AI 이미지 생성 모델의 안전 필터를 우회하는 새로운 공격 기법입니다. 기존 방식보다 효율적이며 다양한 모델에 적용 가능하지만, AI 모델의 안전성 확보를 위한 더욱 강력한 기술 개발의 필요성을 시사합니다.

related iamge

최근 AI 기술의 눈부신 발전과 함께 텍스트를 이미지로 변환하는 Text-to-Image(T2I) 모델이 급부상하고 있습니다. 하지만 이러한 모델들이 생성하는 이미지의 안전성을 확보하는 것은 여전히 풀어야 할 숙제입니다. 악의적인 사용자들이 '안전 필터'를 우회하여 위험하거나 불쾌한 이미지를 생성하는 '탈옥(Jailbreaking)' 공격이 등장하고 있기 때문입니다.

중국과학기술대학교 연구진(Chenyu Zhang 외)이 발표한 논문 "Metaphor-based Jailbreaking Attacks on Text-to-Image Models"은 이러한 T2I 모델의 취약점을 파고드는 새로운 공격 방식을 소개합니다. 기존의 대규모 언어 모델(LLM) 기반 공격은 수많은 질의를 필요로 해 실제 적용에 어려움이 있었는데, 연구진은 '은유(Metaphor)'를 활용한 MJA(Metaphor-based Jailbreaking Attack) 라는 새로운 공격 기법을 제시했습니다.

MJA는 MLAG(LLM-based Multi-agent Generation module)APO(Adversarial Prompt Optimization module) 두 모듈로 구성되어 있습니다. MLAG 모듈은 은유 검색, 문맥 매칭, 적대적 프롬프트 생성의 세 가지 하위 작업으로 나뉘어 다양한 은유와 문맥을 탐색하여 적대적 프롬프트(안전 필터를 우회하는 프롬프트)를 생성합니다. APO 모듈은 대리 모델을 훈련하여 공격 성공률을 예측하고, 최적의 적대적 프롬프트를 효율적으로 찾아냅니다. 마치 '금단의 단어 게임'처럼 은유를 사용하여 시스템을 교묘하게 속이는 것이죠.

연구 결과, MJA는 기존 방식보다 적은 질의만으로도 더 높은 성공률을 보였으며, 다양한 오픈소스 및 상용 T2I 모델에 효과적으로 적용되는 높은 전이성을 나타냈습니다. 하지만 이 연구는 모델이 생성한 내용 중에는 불쾌하거나 위험한 자료가 포함될 수 있다는 점을 명시하고 있습니다. 이는 AI 기술 발전의 이면에 존재하는 어두운 그림자를 보여주는 사례입니다.

이 연구는 AI 모델의 안전성을 강화하기 위한 새로운 보안 전략 마련의 시급성을 보여주는 중요한 발견입니다. 앞으로 더욱 정교한 안전 필터와 공격 방지 기술 개발이 필요할 것으로 예상됩니다. 또한, AI 모델 개발자들은 윤리적 문제에 대한 심도있는 고려 없이 기술 발전만을 추구해서는 안된다는 사실을 상기해야 합니다.

[경고] 본 기사는 연구 논문 내용을 바탕으로 작성되었으며, 논문에 포함된 모델 생성 콘텐츠에는 불쾌하거나 위험한 내용이 포함될 수 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Metaphor-based Jailbreaking Attacks on Text-to-Image Models

Published:  (Updated: )

Author: Chenyu Zhang, Yiwen Ma, Lanjun Wang, Wenhui Li, Yi Tu, An-An Liu

http://arxiv.org/abs/2503.17987v1