혁신적인 AI 탈옥 공격: RACE 프레임워크의 등장


본 기사는 Zonghao Ying 등 연구진이 개발한 RACE 프레임워크를 소개합니다. RACE는 LLM의 추론 능력을 악용하여 다회차 탈옥 공격을 수행하는 혁신적인 방법으로, 최첨단 공격 성공률을 달성하고 상용 모델에서도 높은 효과를 보였습니다. 이는 AI 안전성 연구에 중요한 의미를 지닙니다.

related iamge

최근, 인공지능(AI) 분야에서 대규모 언어 모델(LLM)의 안전성에 대한 우려가 커지고 있습니다. 특히, LLM을 악용하여 원치 않는 결과를 유도하는 '탈옥 공격'은 심각한 문제로 떠오르고 있습니다. Ying Zonghao 등 연구진이 개발한 RACE (Reasoning-Augmented Conversation) 프레임워크는 이러한 탈옥 공격의 새로운 지평을 열었습니다.

기존의 탈옥 공격 방법들은 의미적 일관성과 공격 효과 간의 균형을 맞추는 데 어려움을 겪었습니다. 하지만 RACE는 유해한 질문을 무해한 추론 과제로 재구성하고, LLM의 강력한 추론 능력을 악용하여 안전성을 훼손하는 독창적인 접근 방식을 제시합니다.

RACE의 핵심은 공격 상태 머신 프레임워크입니다. 이 프레임워크는 문제 변환 및 반복적 추론을 체계적으로 모델링하여 여러 차례에 걸쳐 일관된 질문 생성을 보장합니다. 여기에 이득 유도 탐색, 자가 플레이, 거부 피드백 모듈을 결합하여 공격의 의미를 유지하고, 효과성을 높이며, 추론 기반 공격 진행을 지속적으로 유지합니다.

다양한 LLM을 대상으로 한 실험 결과는 RACE의 뛰어난 성능을 보여줍니다. 공격 성공률(ASR)이 최대 96% 증가했으며, OpenAI의 o1 및 DeepSeek의 R1과 같은 선도적인 상용 모델에 대해서도 각각 82%와 92%의 높은 ASR을 달성했습니다. 이는 RACE의 강력한 효과성을 입증하는 결과입니다.

연구진은 RACE의 코드를 GitHub에 공개하여 추가 연구를 지원하고 있습니다. 이는 LLM의 안전성 확보 및 탈옥 공격 방지 기술 개발에 중요한 이정표가 될 것입니다. RACE의 등장은 AI 안전성 연구에 새로운 도전과 기회를 제시하며, 향후 AI 시스템 개발에 있어 안전성 확보의 중요성을 더욱 강조하고 있습니다.


참고: 본 기사는 제공된 정보를 바탕으로 작성되었으며, 학술적 정확성을 유지하기 위해 노력했습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models

Published:  (Updated: )

Author: Zonghao Ying, Deyue Zhang, Zonglei Jing, Yisong Xiao, Quanchen Zou, Aishan Liu, Siyuan Liang, Xiangzheng Zhang, Xianglong Liu, Dacheng Tao

http://arxiv.org/abs/2502.11054v1