잠입의 기술: 스테가노그래피 기반의 LLM 탈옥 공격, StegoAttack
본 기사는 스테가노그래피 기법을 이용한 새로운 LLM 탈옥 공격 기법인 StegoAttack에 대해 다룹니다. StegoAttack은 기존 기법보다 높은 성공률과 은닉성을 보이며, AI 안전성 연구에 중요한 시사점을 제공합니다. 향후 AI 모델의 안전성 강화를 위한 지속적인 연구와 노력이 필요함을 강조합니다.

최근, Jianing Geng 등 연구진이 발표한 논문 "When Safety Detectors Aren't Enough: A Stealthy and Effective Jailbreak Attack on LLMs via Steganographic Techniques"는 AI 안전성 연구에 새로운 국면을 열었습니다. 이 논문은 StegoAttack이라는, 기존의 LLM(대규모 언어 모델) 탈옥 공격 방식을 뛰어넘는 획기적인 공격 기법을 제시합니다.
기존의 LLM 탈옥 공격은 모델의 안전 장치를 우회하여 유해한 출력을 유도하지만, 독성 콘텐츠 은닉(toxic stealth) 과 자연스러운 언어 유지(linguistic stealth) 를 동시에 달성하는 데 어려움을 겪었습니다. StegoAttack은 이러한 한계를 극복하기 위해 스테가노그래피(Steganography) 기술을 도입했습니다. 스테가노그래피란, 데이터를 다른 데이터 안에 숨기는 기술인데, StegoAttack은 유해한 질의(query)를 의미적으로 일관성 있는 무해한 텍스트 안에 숨겨 LLM을 공격합니다.
StegoAttack의 작동 방식은 다음과 같습니다. 먼저, 악의적인 질의가 무해한 텍스트에 암호화되어 숨겨집니다. 그런 다음, LLM에게 이 숨겨진 질의를 추출하여 암호화된 방식으로 응답하도록 유도합니다. 이는 악의적인 의도를 효과적으로 숨기면서 자연스러운 언어를 유지하여, 내장된 안전 장치뿐 아니라 외부 안전 메커니즘도 우회할 수 있도록 합니다.
연구진은 주요 AI 제공업체의 4개의 안전 중심 LLM을 대상으로 StegoAttack을 평가했습니다. 그 결과, StegoAttack은 평균 92.00%의 공격 성공률(ASR)을 달성하여, 기존 최고 성능 기법보다 11.0%나 높은 성능을 보였습니다. 또한, 외부 탐지 메커니즘(예: Llama Guard) 하에서도 ASR이 1% 미만으로 감소하는 등 뛰어난 은닉성을 입증했습니다. 이는 StegoAttack이 높은 효율성과 탁월한 은닉 기능을 동시에 갖추고 있음을 보여줍니다. (코드는 https://anonymous.4open.science/r/StegoAttack-Jail66 에서 확인 가능합니다.)
StegoAttack의 등장은 LLM의 안전성에 대한 심각한 우려를 제기하며, 향후 AI 모델의 보안 강화 및 안전 메커니즘 개선 연구의 중요성을 강조합니다. 이 연구는 AI 분야의 발전과 더불어 AI 안전성에 대한 지속적인 연구와 주의가 필요함을 다시 한번 일깨워줍니다. 앞으로 더욱 정교하고 은밀한 공격 기법들이 등장할 가능성을 고려하여, AI 모델의 안전성 확보를 위한 끊임없는 노력이 필요합니다.
Reference
[arxiv] When Safety Detectors Aren't Enough: A Stealthy and Effective Jailbreak Attack on LLMs via Steganographic Techniques
Published: (Updated: )
Author: Jianing Geng, Biao Yi, Zekun Fei, Tongxi Wu, Lihai Nie, Zheli Liu
http://arxiv.org/abs/2505.16765v1