인공지능의 허점을 파고드는 새로운 공격: 코드 혼합과 음성 변형


본 연구는 코드 혼합과 음성적 변형을 이용한 새로운 LLM 공격 전략을 제시하여 높은 공격 성공률을 달성했습니다. 특히, 공격의 해석 가능성을 제시하여 LLM 안전성 향상에 기여할 수 있는 중요한 발견입니다. 이는 다국어 및 다모달 LLM의 안전성에 대한 심각한 문제를 드러내며, 보다 강력하고 일반화된 안전 정렬 전략의 필요성을 강조합니다.

related iamge

인공지능의 허점을 파고드는 새로운 공격: 코드 혼합과 음성 변형

최근 인공지능(AI)의 발전은 눈부십니다. 특히 대규모 언어 모델(LLM)은 다국어 및 다모달 기능을 갖추며 놀라운 성능을 보여주고 있습니다. 하지만 이러한 강력한 모델은 동시에 악용될 가능성을 안고 있습니다. Darpan Aswal과 Siddharth D Jaiswal은 "'Haet Bhasha aur Diskrimineshun': Phonetic Perturbations in Code-Mixed Hinglish to Red-Team LLMs" 논문에서 LLM의 취약성을 이용한 새로운 공격 방법을 제시했습니다.

기존 방식의 한계 극복

기존의 LLM 공격 연구는 주로 영어에 집중되어 있었고, 고정된 템플릿 기반의 공격 전략을 사용했습니다. 하지만 실제 세계는 훨씬 더 복잡하며, 다양한 언어와 표현 방식이 존재합니다. 이 연구는 이러한 한계를 극복하기 위해 코드 혼합(Hinglish)음성적 변형(Phonetic Perturbation) 이라는 새로운 전략을 도입했습니다.

놀라운 성공률: 99% & 78%

연구진은 힌디어-영어 혼합 언어인 Hinglish를 사용하여 악성 프롬프트를 생성하고, 의도적으로 철자를 틀리는 음성적 변형을 적용했습니다. 그 결과, 텍스트 생성에서는 99%, 이미지 생성에서는 78%의 높은 공격 성공률을 달성했습니다. 특히 텍스트 생성의 경우 공격의 정확성을 나타내는 공격 관련성(Attack Relevance Rate)이 100%에 달했습니다. 이는 기존 방식을 훨씬 뛰어넘는 성과입니다.

해석 가능성 확보: 왜 성공했을까?

단순히 높은 성공률만을 제시하는 것이 아니라, 왜 이러한 공격이 성공했는지에 대한 해석 가능성도 함께 제시했습니다. 음성적 변형이 단어 토큰화에 영향을 미쳐 LLM의 안전 필터를 우회한다는 것을 밝혀냈습니다. 이는 LLM의 안전성 강화를 위한 중요한 통찰력을 제공합니다.

시사점: 더욱 강력한 안전 장치 필요

이 연구는 다국어, 다모달 LLM의 안전성에 대한 심각한 문제를 드러냅니다. 실제 세계에서 사용되는 다양한 언어와 표현 방식까지 고려한, 보다 일반화된 안전 정렬(safety alignment) 전략의 필요성을 강조합니다. AI 기술의 발전과 함께, AI의 안전성에 대한 연구 또한 더욱 심도있게 진행되어야 함을 시사합니다. 단순히 기술적 발전만이 아니라, 윤리적이고 사회적 책임까지 고려한 AI 개발이 절실합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] "Haet Bhasha aur Diskrimineshun": Phonetic Perturbations in Code-Mixed Hinglish to Red-Team LLMs

Published:  (Updated: )

Author: Darpan Aswal, Siddharth D Jaiswal

http://arxiv.org/abs/2505.14226v1