바벨탑의 재현: 폐쇄형 거대 언어 모델을 공략하는 다국어 프롬프트 공격
폐쇄형 거대 언어 모델(LLM)의 다국어 취약성을 최초로 종합 분석한 연구 결과가 발표되었습니다. 중국어 기반 공격이 영어보다 성공률이 높았으며, GPT-4o가 가장 강력한 방어력을 보였지만 모든 모델이 다국어 공격에 취약함이 드러났습니다. 이 연구는 LLM의 보안 강화를 위한 시급한 필요성을 강조합니다.

최근 급속도로 발전하는 거대 언어 모델(LLM)은 다양한 분야에서 활용되고 있지만, 악의적인 프롬프트 공격에는 여전히 취약합니다. 대부분의 기존 연구는 오픈소스 모델에 초점을 맞춰왔지만, Linghan Huang 등 9명의 연구진은 폐쇄형 LLM에 대한 다국어 공격 시나리오를 최초로 심층 분석했습니다.
그들은 GPT-4o, DeepSeek-R1, Gemini-1.5-Pro, Qwen-Max 등 최첨단 독점 LLM을 대상으로 다양한 공격 기법을 활용하는 통합적인 적대적 프레임워크를 개발했습니다. 영어와 중국어로 6가지 보안 콘텐츠에 걸쳐 32가지 유형의 공격을 시행, 총 38,400개의 응답을 분석했습니다. 프롬프트 설계, 모델 아키텍처, 언어 환경 세 가지 측면에서 공격 성공률(ASR)을 정량적 지표로 사용했습니다.
연구 결과, Qwen-Max가 가장 취약하고 GPT-4o가 가장 강력한 방어력을 보이는 것으로 나타났습니다. 놀랍게도 중국어 프롬프트는 영어보다 훨씬 높은 ASR을 기록했습니다. 특히, 연구진이 새롭게 개발한 '양면 공격(Two-Sides attack)' 기법이 모든 모델에서 가장 효과적이었습니다.
이 연구는 LLM의 언어 인식 정렬 및 강력한 다국어 방어의 시급한 필요성을 강조합니다. 보다 강력하고 포괄적인 AI 시스템을 구축하기 위한 연구자, 개발자, 정책 입안자들의 노력을 촉구하는 중요한 결과입니다. 다국어 환경에서의 AI 보안에 대한 새로운 패러다임을 제시하며, 향후 AI 개발 방향에 중요한 시사점을 제공합니다. 앞으로 다국어 지원 LLM의 보안 강화를 위한 연구가 더욱 활발해질 것으로 예상됩니다.
주요 내용:
- 최초의 다국어 공격 프레임워크: 폐쇄형 LLM에 대한 다국어 공격 시나리오를 최초로 종합 분석
- 중국어의 높은 공격 성공률: 중국어 프롬프트가 영어보다 높은 공격 성공률을 보임
- GPT-4o의 강력한 방어력: GPT-4o가 가장 강력한 방어력을 보였으나, 여전히 취약점 존재
- 새로운 공격 기법: '양면 공격' 기법의 높은 효과 입증
- AI 시스템의 보안 강화 필요성 강조: 언어 인식 정렬 및 다국어 방어의 중요성 강조
Reference
[arxiv] The Tower of Babel Revisited: Multilingual Jailbreak Prompts on Closed-Source Large Language Models
Published: (Updated: )
Author: Linghan Huang, Haolin Jin, Zhaoge Bi, Pengyue Yang, Peizhou Zhao, Taozhao Chen, Xiongfei Wu, Lei Ma, Huaming Chen
http://arxiv.org/abs/2505.12287v1