웃는 얼굴 뒤에 숨겨진 단검: 행복한 결말로 거짓말하는 거대 언어 모델들
Song Xurui 등 연구진이 개발한 Happy Ending Attack (HEA)은 긍정적인 프롬프트를 이용하여 LLM을 탈옥시키는 새로운 공격 기법으로, 최첨단 LLM에 대한 높은 성공률을 보이며 LLM 보안에 대한 새로운 시각을 제시합니다.

웃는 얼굴 뒤에 숨겨진 단검: 행복한 결말로 거대 언어 모델들을 속이다
최근 대규모 언어 모델(LLM)의 급속한 발전은 그 활용성과 함께 보안 취약성에 대한 우려도 증폭시켰습니다. 특히 악의적인 목적으로 LLM을 조작하는 '탈옥(jailbreak)' 공격은 심각한 문제로 떠오르고 있습니다. 기존의 탈옥 공격은 최적화 기반이거나 수동으로 설계되었는데, 효율성이 낮거나 전이성이 부족하다는 한계를 가지고 있었습니다. 또한 쉽게 감지되거나 LLM과 복잡한 상호작용을 필요로 하는 경우가 많았습니다.
Song Xurui 등 연구진이 발표한 논문 "Dagger Behind Smile: Fool LLMs with a Happy Ending Story"는 이러한 한계를 극복하는 새로운 탈옥 공격 기법인 'Happy Ending Attack (HEA)'을 제시합니다. 연구진은 LLM이 긍정적인 프롬프트에 더욱 민감하게 반응한다는 점에 주목했습니다. HEA는 악의적인 요청을 '행복한 결말'을 포함하는 시나리오 템플릿에 숨겨 LLM을 속이는 방식입니다. 즉, 긍정적인 프롬프트로 포장하여 LLM을 즉시 또는 후속 요청에서 탈옥시키는 것입니다.
HEA의 핵심은 단순성과 효율성에 있습니다. 최대 두 번의 상호작용만으로도 LLM을 완전히 탈옥시킬 수 있습니다. GPT-4o, Llama3-70b, Gemini-pro 등 최첨단 LLM을 대상으로 한 광범위한 실험 결과, HEA는 평균 88.79%의 높은 성공률을 달성했습니다. 연구진은 논문에서 HEA의 성공에 대한 정량적인 설명도 함께 제공하고 있습니다.
이 연구는 LLM의 보안 취약성에 대한 새로운 시각을 제시하며, '행복한 결말'이라는 예상치 못한 요소를 이용한 공격 기법의 효과를 보여줍니다. 이는 LLM의 안전한 개발 및 배포를 위해 보다 강력한 보안 대책 마련의 필요성을 시사합니다. 앞으로 LLM 보안 분야에서는 이러한 '긍정적 프롬프트'에 대한 취약성을 극복하는 기술 개발이 중요한 과제로 자리매김할 것으로 예상됩니다. HEA는 단순히 공격 기법을 제시하는 것을 넘어, LLM 보안 연구에 새로운 방향을 제시하는 중요한 성과로 평가받을 수 있습니다. 🤔
Reference
[arxiv] Dagger Behind Smile: Fool LLMs with a Happy Ending Story
Published: (Updated: )
Author: Xurui Song, Zhixin Xie, Shuo Huai, Jiayi Kong, Jun Luo
http://arxiv.org/abs/2501.13115v2