멀티 에이전트 LLM 시스템의 취약성: 최적화된 프롬프트 공격으로 시스템 무력화


본 기사는 다중 에이전트 LLM 시스템의 취약성을 다룬 연구에 대해 소개합니다. 연구진은 제한된 자원 환경을 고려한 최적화된 프롬프트 공격을 개발하여 기존 방어 메커니즘을 우회하는 데 성공했으며, 다양한 모델과 데이터셋에서 높은 공격 성공률을 기록했습니다. 이는 다중 에이전트 시스템의 안전성 확보를 위한 새로운 안전 메커니즘 개발의 필요성을 시사합니다.

related iamge

최근 급속한 발전을 거듭하는 대규모 언어 모델(LLM)은 이제 단일 에이전트를 넘어, 여러 에이전트가 상호작용하는 다중 에이전트 시스템으로 진화하고 있습니다. 하지만 이러한 시스템은 에이전트 간의 통신 및 분산 추론에 의존하기 때문에 새로운 유형의 보안 위협에 취약할 수 있습니다. Rana Muhammad Shahroz Khan 등 연구진이 발표한 논문 "$\textit{Agents Under Siege}$: Breaking Pragmatic Multi-Agent LLM Systems with Optimized Prompt Attacks" 에서는 이러한 다중 에이전트 LLM 시스템의 취약성을 혁신적인 방식으로 공격하는 방법을 제시했습니다.

이 연구는 토큰 대역폭 제한, 메시지 전달 지연 시간, 그리고 기존의 방어 메커니즘과 같은 현실적인 제약 조건을 고려하여 설계된 $\textit{permutation-invariant adversarial attack}$ 에 초점을 맞추고 있습니다. 연구진은 지연 시간 및 대역폭 제약 네트워크 토폴로지에서 프롬프트 분포를 최적화하여 시스템 내부의 분산된 안전 메커니즘을 우회하는 공격 경로를 설계했습니다. $\textit{maximum-flow minimum-cost}$ 문제와 새로운 $\textit{Permutation-Invariant Evasion Loss (PIEL)}$을 결합하여 그래프 기반 최적화를 활용함으로써 공격 성공률을 극대화하고 탐지 위험을 최소화하는 데 성공했습니다.

Llama, Mistral, Gemma, DeepSeek 등 다양한 모델과 JailBreakBench, AdversarialBench 데이터셋을 사용한 실험 결과, 이 방법은 기존의 공격보다 최대 7배 높은 성공률을 보였습니다. 이는 다중 에이전트 시스템의 심각한 취약성을 드러내는 중요한 결과입니다. 더욱이, Llama-Guard 와 PromptGuard 와 같은 기존의 방어 메커니즘들도 이 공격을 막지 못하는 것으로 나타나, 다중 에이전트 시스템에 특화된 새로운 안전 메커니즘의 필요성을 강조하고 있습니다.

이 연구는 다중 에이전트 LLM 시스템의 안전성에 대한 새로운 시각을 제공하며, 향후 보다 안전하고 견고한 AI 시스템 개발을 위한 중요한 발걸음이 될 것으로 기대됩니다. 특히, 제한된 자원 환경에서 작동하는 실제 시스템의 취약성을 보여주는 만큼, 더욱 강력하고 실용적인 보안 대책 마련이 시급한 과제로 부각됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] $\textit{Agents Under Siege}$: Breaking Pragmatic Multi-Agent LLM Systems with Optimized Prompt Attacks

Published:  (Updated: )

Author: Rana Muhammad Shahroz Khan, Zhen Tan, Sukwon Yun, Charles Flemming, Tianlong Chen

http://arxiv.org/abs/2504.00218v1