PiCo: 그림 코드 문맥화를 통한 다중 모달 대규모 언어 모델 탈옥
본 기사는 다중 모달 대규모 언어 모델(MLLM)의 보안 취약성을 악용하는 새로운 공격 프레임워크 PiCo에 대한 연구 결과를 소개합니다. PiCo는 계층적 공격 전략을 통해 기존 방어 메커니즘을 우회하며, 높은 공격 성공률을 기록했습니다. 이는 현재의 AI 보안 시스템의 취약성을 보여주며 더욱 강력한 보안 전략의 필요성을 시사합니다.

혁신적인 공격, PiCo: AI 보안의 새로운 도전
최근 AI 연구의 핵심으로 떠오른 다중 모달 대규모 언어 모델(MLLM)은 시각 및 기타 모달 정보를 대규모 언어 모델(LLM)에 통합하여 AI의 기능을 크게 향상시켰습니다. 하지만 이러한 발전과 함께 새로운 보안 취약성 또한 제기되었습니다. Liu, Tang, Pan, Yin, Wang, Yang 등의 연구자들은 이러한 취약성을 악용하는 새로운 공격 프레임워크인 PiCo를 발표했습니다.
PiCo: 계층적 방어 우회 전략
PiCo는 $\textbf{Pi}$ctorial $\textbf{Co}$de Contextualization의 약자로, 시각적 모달의 취약성과 코드 학습 데이터의 긴 꼬리 분포 특성을 교묘하게 이용합니다. 단순한 공격이 아닌, 계층별 공격 전략을 채택하여 다단계 방어 메커니즘을 점진적으로 우회합니다. 토큰 수준의 서체 공격으로 입력 필터링을 회피하고, 프로그래밍 맥락 지침 내에 악의적인 의도를 삽입하여 런타임 모니터링을 우회하는 것이 주요 전략입니다.
평가 지표의 새 지평: 유해성과 유용성의 조화
공격의 영향을 종합적으로 평가하기 위해, 연구팀은 새로운 평가 지표를 제안했습니다. 이 지표는 공격 후 모델 출력의 유해성과 유용성을 동시에 평가하여 공격의 효과를 더욱 정확하게 측정합니다. 이는 단순히 공격 성공률만을 측정하는 기존 방식에서 한 단계 더 나아간 접근 방식입니다.
놀라운 성공률: 기존 방법 뛰어넘다
코드 스타일의 시각적 지침에 악의적인 의도를 삽입하여 실험한 결과, PiCo는 Gemini-Pro Vision에서 평균 84.13%, GPT-4에서 52.66%의 공격 성공률(ASR)을 달성했습니다. 이는 기존의 방법들을 훨씬 뛰어넘는 성과로, 현재의 방어 메커니즘의 심각한 취약성을 드러냅니다.
미래를 위한 경고: 더욱 강력한 보안 전략의 필요성
PiCo의 성공은 MLLM의 보안에 대한 심각한 우려를 제기합니다. 연구 결과는 현재의 방어 전략이 충분하지 않다는 것을 명확하게 보여주며, 더욱 강력하고, 다각적인 보안 전략을 개발해야 할 필요성을 강조합니다. AI 기술의 발전과 더불어, 그 안전성을 확보하기 위한 노력 또한 끊임없이 진화해야 할 것입니다. PiCo는 AI 보안 분야에 새로운 도전 과제를 던지며, 앞으로 더욱 발전된 연구와 대응이 요구됨을 시사합니다.
Reference
[arxiv] PiCo: Jailbreaking Multimodal Large Language Models via $\textbf{Pi}$ctorial $\textbf{Co}$de Contextualization
Published: (Updated: )
Author: Aofan Liu, Lulu Tang, Ting Pan, Yuguo Yin, Bin Wang, Ao Yang
http://arxiv.org/abs/2504.01444v1