멀티모달 AI의 허점을 파고드는 거대 언어 모델: CLIP의 취약성 벤치마킹
카이스트 연구팀이 거대 언어 모델을 활용하여 다중 모달 AI의 취약성을 벤치마킹하는 새로운 방법론을 개발했습니다. MAC이라는 새로운 벤치마크와 자기 학습 기법을 통해, CLIP과 같은 모델의 조합적 취약성을 효과적으로 드러낼 수 있음을 보였습니다. 상대적으로 작은 LLM도 사용 가능하다는 점에서 큰 의미를 지닙니다.

최근 인공지능 분야에서 괄목할 만한 발전을 보이고 있는 다중 모달 표현(예: CLIP)은 이미지, 비디오, 오디오 등 다양한 데이터를 이해하고 처리하는 능력으로 주목받고 있습니다. 하지만 안전하고 신뢰할 수 있는 AI 시스템 구축을 위해서는 이러한 모델의 취약성을 철저히 파악하는 것이 필수적입니다.
안전한 AI를 위한 탐구: CLIP의 조합적 취약성 공략
카이스트 연구팀(안재우, 윤희승, 고다윤, 김건희)은 사전 훈련된 다중 모달 표현의 조합적 취약성을 평가하기 위한 새로운 벤치마크인 MAC(Multimodal Adversarial Compositionality) 를 개발했습니다. MAC은 거대 언어 모델(LLM)을 활용하여 CLIP의 약점을 노리는 속임수를 생성하고, 그 효과를 다양한 모달리티에서 평가합니다. 이는 단순히 성공률만 측정하는 것이 아니라, 공격의 다양성까지 고려하여 더욱 포괄적인 평가를 가능하게 합니다.
작은 LLM도 가능? 자기 학습으로 성능 향상
연구팀은 제로샷 방법의 성능을 향상시키기 위해 거부 샘플링과 다양성 증진 필터링을 결합한 자기 학습 기법을 제안했습니다. 흥미롭게도, Llama-3.1-8B와 같이 상대적으로 작은 LLM을 사용하더라도 CLIP의 취약성을 효과적으로 드러낼 수 있음을 보였습니다. 이를 통해, 대규모의 컴퓨팅 자원 없이도 다중 모달 모델의 취약성을 검증할 수 있는 가능성을 제시했습니다.
결론 및 시사점
이번 연구는 LLM을 활용하여 다중 모달 AI의 취약성을 탐지하고 평가하는 새로운 방법론을 제시함으로써, 더욱 안전하고 신뢰할 수 있는 AI 시스템 개발에 기여할 것으로 기대됩니다. 특히, 상대적으로 적은 자원으로도 효과적인 평가가 가능하다는 점은 향후 다양한 AI 모델의 안전성 검증에 중요한 의미를 가집니다. 앞으로도 AI의 발전과 더불어 이러한 취약성 분석 연구가 더욱 활발히 이루어져야 할 것입니다. 이는 단순히 기술적 문제를 넘어, AI 시스템의 윤리적 책임과 사회적 영향에 대한 고찰을 요구하는 중요한 과제입니다.
Reference
[arxiv] Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates
Published: (Updated: )
Author: Jaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim
http://arxiv.org/abs/2505.22943v1