웹 상의 안전한 합성 이미지 생성을 위한 새로운 방어 시스템 등장!


본 연구는 백만 규모의 다중 모달 NSFW 데이터셋과 적대적 공격에 강인한 다중 모달 방어 시스템을 개발하여 웹 상의 안전한 합성 이미지 생성에 기여했습니다. 기존 방어 시스템의 한계를 극복하고, 공격 성공률을 획기적으로 감소시키는 성과를 거두었습니다.

related iamge

최근 몇 년간 Text-to-Image(T2I) 모델의 눈부신 발전과 웹 상의 폭넓은 사용은 놀라운 현상입니다. 초현실적인 이미지 생성 능력 향상은 동시에 새로운 우려를 불러일으켰습니다. 바로 NSFW(Not-Safe-For-Work) 콘텐츠 생성과 웹 사회의 오염입니다. Muhammad Shahid Muneer과 Simon S. Woo가 이끄는 연구팀은 이러한 문제에 대한 해결책을 제시했습니다.

기존에는 NSFW 필터나 사후 보안 검사 같은 기능들이 T2I 모델의 악용을 막는 데 사용되었습니다. 하지만, 최근 연구들은 이러한 방법들이 적대적 공격 앞에 쉽게 무너질 수 있음을 보여주었습니다. 텍스트와 이미지 모달리티에 대한 적대적 공격은 방어 시스템을 우회하는 데 효과적이었죠. 더욱이, 프롬프트와 이미지 쌍, 그리고 적대적 예시를 모두 포함하는 강력한 다중 모달 NSFW 데이터셋은 존재하지 않았습니다.

이 연구의 핵심은 바로 여기에 있습니다. 연구팀은 백만 규모의 프롬프트와 이미지 데이터셋을 오픈소스 확산 모델을 이용하여 생성했습니다. 그리고, 적대적 공격에 강인하고 현재의 문제점을 직접 해결하는 다중 모달 방어 시스템을 개발했습니다. 광범위한 실험 결과, 이 모델은 기존 최첨단 NSFW 탐지 방법보다 정확도와 재현율 면에서 뛰어난 성능을 보였으며, 다중 모달 적대적 공격 시나리오에서 공격 성공률(ASR)을 획기적으로 줄였습니다.

이는 단순한 기술적 진보를 넘어, 웹 환경의 안전성을 크게 향상시킬 잠재력을 지닌 연구입니다. 개발된 코드는 Github 에서 확인할 수 있습니다. 앞으로 이러한 연구가 웹 상의 안전한 AI 활용에 중요한 기여를 할 것으로 기대됩니다. 하지만, 완벽한 해결책은 아니며, 지속적인 연구와 개선이 필요하다는 점을 기억해야 합니다. AI 기술의 발전과 함께 윤리적, 사회적 문제에 대한 끊임없는 고찰이 중요한 시점입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Towards Safe Synthetic Image Generation On the Web: A Multimodal Robust NSFW Defense and Million Scale Dataset

Published:  (Updated: )

Author: Muhammad Shahid Muneer, Simon S. Woo

http://arxiv.org/abs/2504.11707v1