멀티랭귀지, 멀티억양 오디오 LLM 공격의 위협: 새로운 연구 결과 발표!
본 연구는 다국어 및 다양한 억양을 활용한 오디오 LLM 공격의 심각성을 최초로 밝히고, 다중 모달 LLM의 취약성을 강조하며, 향후 연구 방향을 제시합니다. Multi-AudioJail 프레임워크와 새로운 데이터셋 공개를 통해 AI 보안 강화에 기여할 것으로 기대됩니다.

침묵을 깨는 목소리: 다국어 및 다양한 억양을 이용한 오디오 LLM 공격
최근 발표된 논문 "Multilingual and Multi-Accent Jailbreaking of Audio LLMs"은 인공지능(AI) 분야에 충격을 안겨주었습니다. Roh, Shejwalkar, 그리고 Houmansadr 연구팀은 대규모 오디오 언어 모델(LALM)의 치명적인 보안 취약점을 밝혀냈는데, 놀랍게도 그 공격 방식은 다국어와 다양한 억양을 활용한 것이었습니다.
기존 연구는 주로 영어 기반 공격에 초점을 맞췄지만, 이번 연구는 언어 및 음성 변화가 공격 성공률을 극적으로 증폭시킨다는 사실을 밝혀냈습니다. 연구팀은 Multi-AudioJail이라는 새로운 프레임워크를 통해 이러한 취약점을 체계적으로 공격하는 데 성공했습니다. Multi-AudioJail은 (1) 적대적으로 변형된 다국어/다양한 억양 오디오 공격 프롬프트의 새로운 데이터셋과 (2) 음향적 변형(예: 잔향, 에코, 속삭임 효과)이 언어 간 음운론과 어떻게 상호 작용하여 공격 성공률(JSR)을 증가시키는지 보여주는 계층적 평가 파이프라인으로 구성됩니다. 실제로, 케냐식 억양을 가진 오디오에 잔향 효과를 적용한 공격은 MERaLiON 모델에서 공격 성공률을 최대 **+57.25%**까지 높였습니다!
더욱 충격적인 사실은 다중 모달 LLM이 단일 모달 시스템보다 훨씬 취약하다는 것입니다. 공격자는 비영어 오디오 입력과 같이 가장 약한 고리를 공격하는 것만으로도 전체 모델을 손상시킬 수 있습니다. 실험 결과, 다국어 오디오 전용 공격은 텍스트 전용 공격보다 무려 3.1배나 높은 성공률을 기록했습니다.
연구팀은 이러한 위험성을 알리고, 다중 모달 시스템의 보안 강화를 위한 연구를 촉구하며, 자체 개발한 데이터셋을 공개할 계획입니다. LALM의 발전과 함께 더욱 확장될 공격 표면에 대한 대비가 시급한 상황입니다. 이 연구는 단순한 기술적 발전이 아닌, AI 보안의 새로운 장을 열었다는 점에서 그 의미가 매우 큽니다. 우리는 이러한 발견을 통해 더욱 안전하고 신뢰할 수 있는 AI 시스템을 구축하기 위한 노력을 계속해야 합니다.
Reference
[arxiv] Multilingual and Multi-Accent Jailbreaking of Audio LLMs
Published: (Updated: )
Author: Jaechul Roh, Virat Shejwalkar, Amir Houmansadr
http://arxiv.org/abs/2504.01094v1