멀티턴 탈옥 공격: AI의 취약점을 파헤치다
Reasoning-Augmented Conversation(RACE)라는 새로운 AI 공격 기법이 개발되어 최대 96%의 공격 성공률을 기록했습니다. 이는 AI의 안전성에 대한 심각한 우려를 제기하며, 향후 AI 모델의 안전성 강화를 위한 연구 개발에 중요한 시사점을 제공합니다.

최근, Reasoning-Augmented Conversation (RACE) 라는 새로운 AI 공격 기법이 등장하여 학계의 주목을 받고 있습니다. 이는 기존의 AI 탈옥 공격 방식과는 달리, 다회차 대화를 통해 AI의 안전 장치를 우회하는, 훨씬 정교하고 효과적인 방법입니다. Ying Zonghao 등 10명의 연구진이 발표한 논문에 따르면, RACE는 유해한 질문을 무해한 추론 과제로 변환시켜, AI 모델의 강력한 추론 능력을 역으로 이용합니다. 이는 마치 교묘한 함정을 파놓고 AI를 유인하는 것과 같습니다.
핵심은 '상태 머신 프레임워크'와 '이득 유도 탐색'입니다. 연구진은 상태 머신 프레임워크를 통해 문제 해결 과정을 체계적으로 모델링하고, 이득 유도 탐색, 자가 플레이, 거부 피드백 모듈을 활용하여 공격의 효과를 극대화합니다. 이는 마치 바둑 기사가 수많은 수를 계산하며 최적의 전략을 찾는 것과 유사합니다.
실험 결과는 놀랍습니다. 다양한 대규모 언어 모델(LLMs)에 대한 실험에서, RACE의 공격 성공률은 최대 96%에 달했습니다. 특히 OpenAI의 o1과 DeepSeek의 R1과 같은 최첨단 상용 모델에서도 각각 82%와 92%의 높은 성공률을 기록했습니다. 이는 RACE가 상용 AI 모델의 안전성에 심각한 위협이 될 수 있음을 시사합니다.
연구진은 GitHub (https://github.com/NY1024/RACE)에 RACE의 코드를 공개하여, AI 안전성 연구에 대한 지속적인 발전을 촉구하고 있습니다. 이 연구는 AI의 안전한 개발 및 배포를 위한 새로운 차원의 연구 방향을 제시하며, AI 기술의 윤리적 함의에 대한 깊은 성찰을 요구하고 있습니다. AI의 발전과 함께 그에 따른 위험성에 대한 연구도 더욱 심도 있게 진행되어야 할 필요성을 보여주는 중요한 사례입니다. 🤔
Reference
[arxiv] Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models
Published: (Updated: )
Author: Zonghao Ying, Deyue Zhang, Zonglei Jing, Yisong Xiao, Quanchen Zou, Aishan Liu, Siyuan Liang, Xiangzheng Zhang, Xianglong Liu, Dacheng Tao
http://arxiv.org/abs/2502.11054v2