간단한 DropConnect 기법을 이용한 전이 기반 표적 공격
Tongrui Su 등 연구팀은 전이 기반 블랙박스 공격의 성공률을 높이기 위해 MCD 기법을 제안했습니다. CNN에서 Transformer 모델로의 공격 전이 시나리오에서 기존 최고 성능 대비 13% 향상된 결과를 얻었으며, 자기 앙상블 기법의 성능 향상에도 기여했습니다. AI 보안의 중요성을 다시 한번 일깨워주는 연구입니다.

AI 안보의 새로운 지평: 더욱 정교해진 표적 공격과 그 대응
최근 AI 모델에 대한 공격이 더욱 정교해지고 있습니다. 특히, 전이 기반 블랙박스 공격은 하나의 대리 모델을 사용하여 생성된 적대적 예제를 다른 모델에 직접 적용하는 방식으로, 기존 방식보다 훨씬 효과적입니다. 하지만, 기존 방법들은 표적 공격(targeted attack)에서 여전히 낮은 성공률에 그치는 경우가 많았습니다. 생성된 적대적 예제가 대리 모델에는 효과적이지만, 다른 모델에는 효과가 없는 경우가 빈번했던 것입니다.
수(Tongrui Su) 연구팀은 이러한 문제점을 해결하기 위해, 'MCD(Mitigate perturbation Co-adaptation by DropConnect)' 라는 새로운 기법을 제시했습니다. 연구팀은 적대적 예제 내 픽셀이나 특징들이 상호 의존적으로 작용하여 대리 모델에 대한 공격 성공률을 극대화하는 현상, 즉 **'섭동 공동 적응(perturbation co-adaptation)'**을 주목했습니다. MCD는 이러한 현상을 완화하여 공격의 전이성을 높이는 데 초점을 맞춥니다. 각 최적화 반복마다 다양한 대리 모델 변형을 생성하여, 단일 모델에 과적합되는 것을 방지하고, 더욱 강력하고 일반화된 적대적 예제를 생성하는 것입니다.
연구 결과는 놀랍습니다. CNN 기반 모델에서 Transformer 기반 모델로의 공격 전이라는 어려운 시나리오에서, MCD는 기존 최고 성능 기법들에 비해 평균 성공률을 무려 13%나 향상시켰습니다. 이는 AI 보안 분야에 있어 상당한 진전입니다. 더욱이, MCD는 자기 앙상블 기법의 성능도 향상시켰으며, 적대적 예제 생성에 대한 계산량이 증가할수록 성능 향상폭이 더욱 커지는 효과를 보였습니다.
이 연구는 AI 모델의 안전성과 보안에 대한 중요한 시사점을 제공합니다. AI 시스템의 안전성을 높이기 위한 새로운 방어 기법 개발과, 더욱 강력한 공격에 대비한 AI 보안 기술 연구의 필요성을 강조합니다. 앞으로 AI 보안 분야의 발전에 큰 영향을 미칠 것으로 예상됩니다. 하지만, 이러한 기술의 발전이 악용될 가능성도 고려해야 합니다. 윤리적이고 책임감 있는 AI 기술 개발과 활용에 대한 지속적인 논의가 필요한 시점입니다.
Reference
[arxiv] A Simple DropConnect Approach to Transfer-based Targeted Attack
Published: (Updated: )
Author: Tongrui Su, Qingbin Li, Shengyu Zhu, Wei Chen, Xueqi Cheng
http://arxiv.org/abs/2504.18594v1