규칙 기반 선호도 모델링을 활용한 텍스트-이미지 시스템 적대적 공격: 안전한 AI를 위한 새로운 시각


Cao 등 연구진이 개발한 RPG-RT는 LLM과 규칙 기반 선호도 모델링을 활용하여 T2I 시스템의 안전성을 평가하고, 알려지지 않은 방어 기제를 우회하는 새로운 적대적 공격 기법입니다. 다양한 실험을 통해 우수성을 검증하여 AI 안전성 향상에 기여할 것으로 예상됩니다.

related iamge

최근 급속도로 발전하는 텍스트-이미지(Text-to-Image, T2I) 모델은 놀라운 창작 능력을 보여주지만, 동시에 부적절하거나 유해한 이미지 생성 가능성으로 인해 윤리적, 안전성 문제에 대한 우려가 커지고 있습니다. Cao 등의 연구진은 이러한 문제에 대한 해결책으로 규칙 기반 선호도 모델링 기반 적대적 공격(Rule-based Preference modeling Guided Red-Teaming, RPG-RT) 을 제안했습니다.

기존의 T2I 모델의 안전성 평가는 화이트박스 방식(내부 접근 필요)과 블랙박스 방식(모델 방어 기제 사전 지식 필요)으로 나뉘는데, 각각 한계가 존재했습니다. 화이트박스 방식은 모델의 내부 접근이 필요하며, 특히 폐쇄형 모델에서는 접근이 어렵습니다. 반면 블랙박스 방식은 모델의 방어 기제에 대한 사전 지식이 필요하여 실제 상업적 API 환경에서는 효용성이 떨어집니다. 특히, 알려지지 않은 다양한 방어 기제를 우회하는 방법은 큰 과제였습니다.

RPG-RT는 이러한 문제를 해결하기 위해 대규모 언어 모델(LLM) 을 활용한 반복적인 프롬프트 수정 기법을 제시합니다. LLM을 사용하여 프롬프트를 수정하고, T2I 시스템의 피드백을 받아 LLM을 미세 조정하는 방식입니다. 각 반복 과정에서의 피드백을 이전 정보로 활용하여, 알려지지 않은 방어 기제에도 동적으로 적응할 수 있도록 설계되었습니다.

하지만 T2I 시스템의 피드백은 종종 라벨링이 되어 있지 않고, 개괄적인 정보만 제공하는 경우가 많아 직접 활용하기 어렵습니다. 이를 극복하기 위해 연구진은 규칙 기반 선호도 모델링을 도입했습니다. 이는 일련의 규칙을 통해 원하는 피드백과 원하지 않는 피드백을 평가하여, LLM의 동적 적응 과정을 보다 세밀하게 제어할 수 있도록 돕습니다.

연구진은 19개의 다양한 안전 메커니즘을 갖춘 T2I 시스템, 3개의 온라인 상업적 API 서비스, 그리고 T2V(Text-to-Video) 모델을 대상으로 광범위한 실험을 수행하여 RPG-RT의 우수성과 실용성을 검증했습니다. 이 연구는 T2I 모델의 안전성 평가 및 강화에 중요한 이정표를 제시하며, 더욱 안전하고 책임감 있는 AI 시스템 개발에 기여할 것으로 기대됩니다. 이는 AI 기술 발전과 윤리적 문제 사이의 균형을 맞추기 위한 중요한 시도로 평가됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Red-Teaming Text-to-Image Systems by Rule-based Preference Modeling

Published:  (Updated: )

Author: Yichuan Cao, Yibo Miao, Xiao-Shan Gao, Yinpeng Dong

http://arxiv.org/abs/2505.21074v1