멀티모달 AI의 취약성을 파헤치다: EVA 프레임워크로 GUI 에이전트 공격 성공률 극대화
본 기사는 멀티모달 AI 에이전트의 GUI 취약성을 공격하는 새로운 레드팀밍 프레임워크 EVA에 대해 소개합니다. EVA는 에이전트의 시각적 주의 분포를 모니터링하고 적대적 단서를 동적으로 업데이트하여 공격 성공률을 높이며, 다양한 GUI 시나리오에서 높은 효율성을 보입니다. 이 연구는 멀티모달 AI의 안전성을 확보하는 데 중요한 의미를 가집니다.

멀티모달 AI의 취약성을 파헤치다: EVA 프레임워크로 GUI 에이전트 공격 성공률 극대화
최근 급속도로 발전하는 멀티모달 AI 에이전트는 사용자 인터페이스(GUI)를 통해 다양한 작업을 수행합니다. 하지만 이러한 에이전트는 간과하기 쉬운 심각한 위협에 직면해 있습니다. 바로 간접 프롬프트 주입 공격입니다.
간접 프롬프트 주입 공격은 악의적인 행위자가 에이전트의 시각적 환경(팝업 창, 채팅 메시지 등)에 오해의 소지가 있는 지시 사항을 삽입하여 에이전트의 의도된 작업을 방해하는 공격입니다. 예를 들어, 환경 주입 공격은 사용자 프롬프트를 직접 수정하지 않고 GUI 요소를 조작하여 에이전트의 행동에 영향을 미치는 방식입니다.
이러한 위협에 맞서, 중국과학기술대학 연구진(Yijie Lu, Tianjie Ju, Manman Zhao, Xinbei Ma, Yuan Guo, ZhuoSheng Zhang)은 EVA(Evolving Indirect Prompt Injection) 라는 혁신적인 레드팀밍 프레임워크를 제안했습니다. EVA는 공격을 폐쇄 루프 최적화로 변환하여 에이전트의 GUI에 대한 주의 분포를 지속적으로 모니터링하고, 적대적 단서, 키워드, 어구 및 레이아웃을 실시간으로 업데이트합니다.
기존의 일회성(one-shot) 방식이 모델의 시각적 주의 분배를 고려하지 않고 고정된 프롬프트를 생성하는 것과 달리, EVA는 동적으로 변화하는 주의 집중 영역에 적응하여 공격 성공률을 크게 높이고 다양한 GUI 시나리오에서 뛰어난 전이성을 보여줍니다.
연구진은 팝업 조작, 채팅 기반 피싱, 결제, 이메일 작성 등의 현실적인 환경에서 6가지 널리 사용되는 일반 및 특수 GUI 에이전트를 대상으로 EVA를 평가했습니다. 실험 결과, EVA는 정적 기준선보다 공격 성공률을 상당히 향상시켰습니다. 특히 공격자가 에이전트의 작업 의도를 모르는 상황(목표 불명확 제약 조건)에서도 EVA는 효과적인 패턴을 발견했습니다. 흥미롭게도, 공격 스타일이 모델 간에 잘 전이되는 현상이 관찰되었는데, 이는 GUI 에이전트의 공통된 행동 편향을 나타냅니다.
결론적으로, EVA는 에이전트 레드팀밍을 위한 강력한 도구일 뿐만 아니라 멀티모달 의사결정 과정에서의 공통 취약성을 발견하는 데에도 중요한 역할을 합니다. 이 연구는 멀티모달 AI의 안전성과 신뢰성을 확보하기 위한 중요한 발걸음이 될 것입니다. 향후 연구에서는 EVA의 더욱 발전된 버전과 다양한 방어 기법에 대한 연구가 필요할 것입니다.
Reference
[arxiv] EVA: Red-Teaming GUI Agents via Evolving Indirect Prompt Injection
Published: (Updated: )
Author: Yijie Lu, Tianjie Ju, Manman Zhao, Xinbei Ma, Yuan Guo, ZhuoSheng Zhang
http://arxiv.org/abs/2505.14289v1