낡고 해진 간판 속에 숨겨진 위협: AI를 속이는 새로운 적대적 공격 기법, AdvWT
Samra Irshad 등 연구진이 발표한 논문에서 제시된 AdvWT는 자연적인 마모 현상을 이용하여 AI 시스템을 공격하는 새로운 적대적 예제 생성 기법입니다. GAN 기반 네트워크를 통해 현실적인 손상 스타일 코드를 생성하고, 이를 통해 DNN을 효과적으로 오도하는 이미지를 생성합니다. 실험 결과 기존 기법보다 높은 성공률과 자연스러움, 강건성을 보였으며, AI 시스템의 안전성 확보를 위한 연구 개발의 중요성을 시사합니다.

자율주행과 같은 안전 중요 분야에서 딥러닝 네트워크(DNN)의 활용이 증가함에 따라, 물리적 세계에서의 적대적 예제(Adversarial Examples)의 존재는 심각한 문제로 떠오르고 있습니다. 기존의 물리적 적대적 예제 생성 방법들은 그림자, 레이저, 스티커 등 일시적인 변형에 의존하는 임시방편적인 경우가 많았습니다. 하지만 최근, 독일 막스플랑크 연구소와 한국 카이스트 연구진이 공동으로 발표한 논문에서는 자연적으로 발생하는 '마모(Wear and Tear)' 현상을 이용한 새로운 물리적 적대적 예제 생성 기법인 AdvWT를 소개했습니다.
AdvWT는 두 단계의 접근 방식을 사용합니다. 첫째, GAN(Generative Adversarial Network) 기반의 비지도 학습 이미지-이미지 변환 네트워크를 이용하여 야외 간판의 자연적 손상을 모델링합니다. 이 네트워크는 손상된 간판의 특징을 잠재적인 '손상 스타일 코드'로 인코딩합니다. 둘째, 이 스타일 코드에 적대적 섭동을 추가하여 네트워크가 DNN을 오도하는 적대적 이미지를 생성하도록 유도합니다. 이 과정에서 손상의 외관은 현실적으로 유지하면서 동시에 DNN을 속이는 효과를 보장하도록 설계되었습니다.
두 개의 교통 표지판 데이터셋을 이용한 실험 결과, AdvWT는 디지털 및 물리적 영역 모두에서 DNN을 효과적으로 오도하는 것으로 나타났습니다. 기존의 물리적 적대적 예제에 비해 더 높은 성공률, 더 강건한 성능, 그리고 더 자연스러운 외관을 보였습니다. 또한, AdvWT를 훈련에 통합하면 실제 손상된 표지판에 대한 모델의 일반화 성능이 향상되는 것을 확인했습니다.
이 연구는 단순히 인공적인 변형이 아닌, 자연스러운 마모 현상을 이용하여 AI 시스템을 공격할 수 있다는 것을 보여주는 중요한 결과입니다. 앞으로 자율주행, 의료 진단 등 AI가 활용되는 다양한 분야에서 이러한 새로운 유형의 적대적 공격에 대한 대비가 필요할 것으로 예상됩니다. AdvWT의 등장은 AI 시스템의 안전성과 신뢰성을 높이기 위한 지속적인 연구 개발의 필요성을 강조하고 있습니다. 이는 단순한 기술적 도약을 넘어, AI 시스템의 안전한 구축과 윤리적인 사용에 대한 심도 있는 고찰을 요구하는 시발점이 될 것입니다.
Reference
[arxiv] Adversarial Wear and Tear: Exploiting Natural Damage for Generating Physical-World Adversarial Examples
Published: (Updated: )
Author: Samra Irshad, Seungkyu Lee, Nassir Navab, Hong Joo Lee, Seong Tae Kim
http://arxiv.org/abs/2503.21164v1