DualBreach: 목표 지향적 초기화와 다중 목표 최적화를 통한 효율적인 이중 탈옥
중국과학원 연구진이 발표한 DualBreach는 LLM과 보호 장치를 동시에 공격하는 이중 탈옥 공격에 대한 새로운 프레임워크입니다. 목표 지향적 초기화와 다중 목표 최적화를 통해 높은 성공률과 적은 쿼리 수를 달성하며, 함께 제시된 EGuard는 강력한 방어 메커니즘으로 AI 안전성 향상에 기여합니다.

AI 안전의 새로운 국면: 이중 탈옥 공격과 방어의 최전선
최근, 대규모 언어 모델(LLM)의 안전성 확보는 인공지능 분야의 가장 중요한 화두 중 하나입니다. 하지만 LLM의 취약성을 악용하여 유해하거나 편향된 정보를 생성하는 공격 또한 끊임없이 진화하고 있습니다. 특히, LLM 자체의 안전 장치(Guardrails)까지 우회하는 '이중 탈옥(dual-jailbreaking)' 공격은 심각한 위협으로 떠오르고 있습니다.
중국과학원 연구진이 발표한 논문 “DualBreach: Efficient Dual-Jailbreaking via Target-Driven Initialization and Multi-Target Optimization”은 이러한 이중 탈옥 공격에 대한 새로운 관점을 제시합니다. 이 연구는 기존 방법들의 한계를 극복하기 위해 DualBreach라는 혁신적인 프레임워크를 제안합니다.
DualBreach: 더욱 효율적이고 정교한 공격
DualBreach는 두 가지 핵심 전략을 활용합니다. 첫째, 목표 지향적 초기화(TDI) 전략은 공격 목표에 맞춰 최적의 초기 프롬프트를 동적으로 생성합니다. 둘째, 다중 목표 최적화(MTO) 방법은 근사 기울기를 이용하여 보호 장치와 LLM을 동시에 공격합니다. 이를 통해 기존 방법보다 훨씬 적은 쿼리(질문)로 높은 성공률을 달성합니다.
블랙박스 형태의 보호 장치에 대해서는 강력한 오픈소스 보호 장치 또는 프록시 모델을 활용하여 MTO 과정에 통합하는 방식을 사용합니다. 실험 결과, DualBreach는 GPT-4와 Llama-Guard-3 보호를 받는 환경에서 평균 93.67%의 성공률을 달성하며, 기존 최고 기록인 88.33%를 훨씬 상회했습니다. 평균 1.77회의 쿼리만으로 이러한 성공률을 달성한 점 또한 주목할 만합니다.
EGuard: 강력한 방어 메커니즘의 등장
공격 기술의 발전에 따라 강력한 방어 메커니즘 또한 필수적입니다. 연구팀은 여러 보호 장치의 강점을 결합한 EGuard라는 XGBoost 기반 앙상블 방어 메커니즘을 제안했습니다. EGuard는 Llama-Guard-3보다 우수한 성능을 보이며, AI 안전성 확보에 새로운 가능성을 제시합니다.
결론: 지속적인 연구 개발의 필요성
DualBreach와 EGuard의 등장은 LLM 안전성 확보에 대한 지속적인 연구 개발의 중요성을 보여줍니다. 공격과 방어 기술은 끊임없이 진화하며, 더욱 강력하고 안전한 AI 시스템 구축을 위해서는 끊임없는 노력이 필요합니다. 이 연구는 AI 안전 분야의 중요한 이정표가 될 것이며, 향후 연구 방향에 대한 귀중한 통찰력을 제공합니다.
Reference
[arxiv] DualBreach: Efficient Dual-Jailbreaking via Target-Driven Initialization and Multi-Target Optimization
Published: (Updated: )
Author: Xinzhe Huang, Kedong Xiu, Tianhang Zheng, Churui Zeng, Wangze Ni, Zhan Qiin, Kui Ren, Chun Chen
http://arxiv.org/abs/2504.18564v1