시스템 프롬프트 포이즈닝: 거대 언어 모델의 지속적인 공격
Guo와 Cai의 연구는 시스템 프롬프트 포이즈닝이라는 새로운 공격 벡터를 제시하며, LLM의 시스템 프롬프트 자체의 취약성을 강조합니다. 다양한 작업과 고급 프롬프팅 기법에도 효과적인 이 공격은 LLM 보안 강화를 위한 새로운 패러다임 전환을 요구합니다.

거대 언어 모델(LLM)의 숨겨진 취약점: 시스템 프롬프트 포이즈닝
최근 급부상한 거대 언어 모델(LLM)은 놀라운 생성 능력으로 다양한 분야에서 활용되고 있습니다. 간편한 프롬프트 입력만으로 누구나 쉽게 사용할 수 있다는 장점은 동시에 심각한 보안 위협으로 이어질 수 있다는 것을 시사합니다. 기존 연구는 주로 사용자 프롬프트 주입이나 모델 출력 변조에 초점을 맞춰왔지만, Guo와 Cai의 연구는 시스템 프롬프트 자체의 취약성을 파헤쳐 새로운 공격 벡터를 제시합니다.
그들이 발견한 것은 바로 시스템 프롬프트 포이즈닝입니다. 이 공격은 사용자 프롬프트가 아닌 시스템 프롬프트를 악의적으로 조작하여, 모든 후속 사용자 상호 작용과 모델 응답에 지속적인 영향을 미칩니다. 이는 마치 시스템의 근간을 훼손하는 것과 같습니다.
연구진은 다양한 시나리오에서 네 가지 실제 공격 전략을 체계적으로 조사했습니다. 생성 및 추론 LLM 모두에서 시스템 프롬프트 포이즈닝이 탈옥 기술 없이도 매우 효과적이며, 수학, 코딩, 논리적 추론, 자연어 처리 등 광범위한 작업에 걸쳐 효과를 발휘한다는 것을 보여주었습니다.
특히 주목할 점은, 체인 오브 쏘트(CoT) 나 검색 증강 생성(RAG) 과 같은 LLM 성능 향상을 위한 고급 프롬프팅 기법조차도 시스템 프롬프트 포이즈닝 공격으로부터 자유롭지 못하다는 것입니다. 이러한 기법들은 다양한 작업에서 LLM 성능을 향상시키는 것으로 입증되었지만, 시스템 프롬프트 포이즈닝 앞에서는 그 효과가 크게 약화됩니다. 이는 LLM 보안 강화를 위한 새로운 패러다임 전환을 요구하는 중요한 발견입니다.
이 연구는 LLM의 보안 취약성에 대한 심각성을 일깨워주는 동시에, 더욱 안전하고 신뢰할 수 있는 LLM 개발을 위한 새로운 연구 방향을 제시합니다. 향후 시스템 프롬프트의 보안 강화 및 새로운 공격 방어 기술 개발에 대한 연구가 더욱 활발해질 것으로 예상됩니다. 이제 단순한 사용자 프롬프트 주입 방지뿐 아니라, 시스템 프롬프트 자체에 대한 보안 강화가 LLM의 안전한 활용을 위한 필수적인 요소로 자리 잡을 것입니다.
Reference
[arxiv] System Prompt Poisoning: Persistent Attacks on Large Language Models Beyond User Injection
Published: (Updated: )
Author: Jiawei Guo, Haipeng Cai
http://arxiv.org/abs/2505.06493v1