멀티모달 AI의 취약점을 드러낸 SCAM 데이터셋: 활자 공격의 위협과 그 대응


Justus Westerhoff 등 연구진이 공개한 SCAM 데이터셋은 멀티모달 AI의 활자 공격 취약성을 보여주는 대규모 실제 세계 데이터셋입니다. 연구 결과, 활자 공격이 최첨단 모델의 성능을 저하시키며, 모델 아키텍처와 훈련 데이터가 취약성에 영향을 미침을 확인했습니다. 합성 공격의 유용성도 입증되었으며, 공개된 데이터셋과 코드는 향후 연구에 큰 도움이 될 것입니다.

related iamge

최근 급성장하는 멀티모달 AI 분야에서 새로운 위협이 등장했습니다. 바로 활자 공격입니다. 이미지에 오해를 불러일으키는 텍스트를 삽입하여 멀티모달 기초 모델의 분류를 잘못 유도하는 공격 방식입니다. 하지만 기존 데이터셋의 부족으로 이러한 취약성에 대한 연구가 어려웠습니다.

이러한 문제를 해결하고자 Justus Westerhoff 등 연구진이 SCAM이라는 대규모 실제 세계 활자 공격 이미지 데이터셋을 공개했습니다. SCAM은 수백 개의 개체 범주와 공격 단어를 포함하는 1,162개의 이미지로 구성되어, 기존 데이터셋보다 훨씬 크고 다양합니다. 이는 멀티모달 AI의 안전성 연구에 중요한 이정표가 될 것으로 기대됩니다.

연구진은 SCAM을 이용하여 다양한 비전-언어 모델(VLMs)을 평가했습니다. 그 결과, 활자 공격이 VLMs의 성능을 상당히 저하시킨다는 것을 확인했습니다. 특히, 모델 아키텍처와 훈련 데이터가 활자 공격에 대한 취약성에 큰 영향을 미친다는 사실을 밝혀냈습니다. 흥미롭게도, 대규모 언어 모델(LLMs) 백본의 크기가 클수록 활자 공격에 대한 취약성이 감소하는 경향을 보였습니다.

또한, 연구진은 합성 공격이 실제 수기 공격과 매우 유사하다는 것을 보여주었습니다. 이는 합성 공격을 활용하여 보다 효율적으로 멀티모달 AI의 취약성을 연구할 수 있다는 것을 의미합니다.

SCAM 데이터셋평가 코드는 모두 공개되어 있으며, https://huggingface.co/datasets/BLISS-e-V/SCAMhttps://github.com/Bliss-e-V/SCAM 에서 확인할 수 있습니다. 이번 연구는 멀티모달 AI 시스템의 강건성과 신뢰성을 향상시키기 위한 중요한 발걸음이 될 것입니다. 앞으로 더욱 안전하고 신뢰할 수 있는 AI 시스템 개발을 위한 활발한 연구가 기대됩니다.

요약: SCAM 데이터셋을 이용한 연구는 멀티모달 AI의 활자 공격 취약성을 명확히 보여주었으며, 모델 아키텍처 및 훈련 데이터의 중요성을 강조했습니다. 공개된 데이터셋과 코드는 향후 안전한 멀티모달 AI 연구에 크게 기여할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

Published:  (Updated: )

Author: Justus Westerhoff, Erblina Purellku, Jakob Hackstein, Leo Pinetzki, Lorenz Hufe

http://arxiv.org/abs/2504.04893v1