멀티모달 거대 언어 모델의 보안 취약성을 파헤치다: PiCo 공격 프레임워크 등장
본 기사는 멀티모달 거대 언어 모델(MLLM)의 보안 취약성을 악용하는 새로운 공격 프레임워크 PiCo에 대한 연구 결과를 소개합니다. PiCo는 계층별 공격 전략과 새로운 평가 지표를 통해 높은 성공률을 달성했으며, MLLM의 보안 강화 필요성을 강조합니다.

최근 이미지와 같은 다양한 모달리티를 통합한 멀티모달 거대 언어 모델(MLLM)이 AI 분야의 혁신을 주도하고 있지만, 동시에 새로운 보안 취약성 문제를 야기하고 있습니다. Aofan Liu 등 6명의 연구원이 발표한 논문 “PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization”은 이러한 취약성을 악용하는 새로운 공격 프레임워크 PiCo를 소개합니다.
PiCo는 시각적 모달리티의 취약점과 코드 훈련 데이터의 긴 꼬리 분포 특성을 교묘하게 활용합니다. 특히 주목할 점은 계층별 공격 전략입니다. PiCo는 입력 필터링을 우회하기 위해 토큰 수준의 서체 공격을 사용하고, 실행시간 모니터링을 우회하기 위해 프로그래밍 컨텍스트 명령어 내에 악의적인 의도를 숨깁니다. 이는 마치 요새를 정복하듯, 하나씩 방어선을 무너뜨리는 전략과 같습니다.
단순히 공격 성공률만을 평가하는 기존 방식을 넘어, PiCo는 모델 출력의 유용성과 독성을 동시에 평가하는 새로운 지표를 제시했습니다. 이는 공격의 영향을 보다 포괄적으로 평가할 수 있도록 해줍니다.
실험 결과는 충격적입니다. PiCo는 Gemini-Pro Vision에서 평균 84.13%의 공격 성공률(ASR)을 달성했고, GPT-4에서도 52.66%의 성공률을 기록했습니다. 이는 기존 방법들을 뛰어넘는 성과입니다. 이러한 결과는 현재의 방어 메커니즘에 심각한 결함이 있음을 보여주며, 더욱 강력한 보안 전략의 필요성을 강조합니다.
PiCo의 등장은 MLLM의 안전성에 대한 심각한 우려를 제기합니다. 단순한 기술적 문제를 넘어, AI의 윤리적, 사회적 책임에 대한 심도있는 논의가 필요한 시점입니다. 앞으로 MLLM의 보안 강화를 위한 연구와 개발이 더욱 활발하게 이루어져야 할 것입니다. 이번 연구는 향후 AI 보안 기술 발전에 중요한 이정표가 될 것으로 기대됩니다.
Reference
[arxiv] PiCo: Jailbreaking Multimodal Large Language Models via $\textbf{Pi}$ctorial $\textbf{Co}$de Contextualization
Published: (Updated: )
Author: Aofan Liu, Lulu Tang, Ting Pan, Yuguo Yin, Bin Wang, Ao Yang
http://arxiv.org/abs/2504.01444v2