탈옥 성공률 90%! AI 챗봇 '속이기' 기술의 진화


본 기사는 대규모 언어 모델(LLM)의 보안 취약성을 악용하는 새로운 공격 기법에 대한 연구 결과를 소개합니다. 반복적인 프롬프트 수정과 설득 전략을 통해 LLM을 '속이는' 데 성공률 90%를 달성한 연구는 LLM 보안 강화의 필요성을 시사합니다.

related iamge

탈옥 성공률 90%! AI 챗봇 '속이기' 기술의 진화

최근 대규모 언어 모델(LLM)의 보안 취약성을 악용하는 새로운 공격 기법이 등장하여 학계의 주목을 받고 있습니다. Shih-Wen Ke 등 연구진이 발표한 논문 "Iterative Prompting with Persuasion Skills in Jailbreaking Large Language Models"에 따르면, 반복적인 프롬프트 수정 및 설득 전략을 통해 LLM을 '속이는' 데 성공률 90%를 달성했다고 합니다.

이 연구는 GPT-3.5, GPT-4, LLaMa2, Vicuna, ChatGLM 등 다양한 LLM을 대상으로 진행되었습니다. 연구진은 단순히 프롬프트를 반복하는 것이 아니라, 각 반복마다 LLM의 응답 패턴을 분석하고 프롬프트를 체계적으로 수정, 개선하는 '반복적 프롬프팅' 기법을 사용했습니다. 이는 마치 숙련된 협상가가 상대방의 반응을 살피며 전략을 수정하는 것과 유사합니다. 더 나아가, 설득 전략을 활용하여 LLM을 교묘하게 조종, 악의적인 의도를 유지하면서도 프롬프트의 효과를 극대화하는 데 성공했습니다.

그 결과, GPT-4와 ChatGLM에서는 무려 90%의 높은 공격 성공률을 기록했습니다. LLaMa2의 경우 68%로 다소 낮았지만, 기존의 PAIR, PAP 등 기법들보다 훨씬 높은 성공률을 보였습니다. GCG와 ArtPrompt와 비교했을 때는 비슷한 성능을 보였습니다.

이 연구 결과는 LLM의 보안에 대한 심각한 우려를 제기합니다. 높은 성공률을 기록한 것은 LLM이 아직까지 예상치 못한 공격에 취약하다는 것을 보여줍니다. 앞으로 LLM의 보안 강화를 위한 더욱 강력한 기술 개발이 시급해 보입니다. AI 기술의 발전과 더불어 윤리적, 보안적 문제에 대한 지속적인 연구와 논의가 중요한 시점입니다. 이번 연구는 LLM 보안 분야의 새로운 이정표를 제시하며, 향후 LLM 개발 및 활용에 있어 보안에 대한 더욱 심도있는 고려가 필요함을 강조하고 있습니다.


(참고) : 이 기사는 제공된 정보를 바탕으로 작성되었으며, 연구 논문의 자세한 내용은 원 논문을 참조하시기 바랍니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Iterative Prompting with Persuasion Skills in Jailbreaking Large Language Models

Published:  (Updated: )

Author: Shih-Wen Ke, Guan-Yu Lai, Guo-Lin Fang, Hsi-Yuan Kao

http://arxiv.org/abs/2503.20320v1