숲을 보지 못하는 나무들: 다중 모달 LLM의 안전 인식 벤치마킹
본 기사는 다중 모달 대규모 언어 모델(MLLM)의 안전성 평가를 위한 새로운 벤치마크 MMSafeAware에 대한 연구 결과를 소개합니다. 연구 결과, 기존 MLLM들은 안전성 인식 측면에서 미흡하며, 안전성 향상을 위한 추가 연구가 필요함을 강조합니다.

최근 텍스트와 이미지를 모두 처리하는 다중 모달 대규모 언어 모델(MLLM)이 급부상하고 있습니다. 하지만 이러한 모델의 안전성 확보는 여전히 풀어야 할 과제입니다. MLLM이 다양한 모달 콘텐츠의 안전성을 정확하게 판별하는 능력, 즉 '안전 인식'이 중요한데, 이에 대한 종합적인 평가가 부족했죠.
Wang 등(2025) 의 연구는 이러한 문제를 해결하기 위해 MMSafeAware라는 벤치마크를 제시합니다. MMSafeAware는 29가지 안전 시나리오와 1500개의 이미지-프롬프트 쌍을 사용하여 MLLM의 안전성을 종합적으로 평가합니다. 단순히 위험한 콘텐츠만을 식별하는 것이 아니라, 안전하지 않은 콘텐츠를 안전한 것으로 오인하는 오류(과소 감지)와 안전한 콘텐츠까지 위험한 것으로 판별하는 오류(과민 반응)를 모두 고려합니다.
연구진은 MMSafeAware를 이용하여 9가지 MLLM을 평가한 결과, 현재 모델들은 안전성 측면에서 미흡하며, 오탐과 과민 반응을 보이는 경우가 많다는 것을 발견했습니다. 예를 들어 GPT-4V는 안전하지 않은 입력의 36.1%를 안전한 것으로, 안전한 입력의 59.9%를 안전하지 않은 것으로 잘못 분류했습니다. 이는 MLLM이 아직 안전성 측면에서 충분히 신뢰할 수 있는 수준에 도달하지 못했음을 시사합니다.
안전 인식을 개선하기 위해 프롬프트 기반 접근법, 시각적 대조 디코딩, 시각 중심 추론 미세 조정 등 세 가지 방법을 시도했지만, 만족할 만한 결과를 얻지 못했습니다. 이 연구는 MLLM의 안전한 개발이 얼마나 어려운 과제인지를 보여주는 동시에, 향후 이 분야에 대한 지속적인 연구의 필요성을 강조하고 있습니다. 연구진은 추가 연구를 위해 모든 코드와 데이터를 공개할 예정입니다.
결론적으로, MLLM의 안전성은 여전히 해결해야 할 중요한 과제이며, MMSafeAware와 같은 벤치마크는 MLLM의 안전성을 향상시키기 위한 노력에 중요한 역할을 할 것입니다. 앞으로 더욱 정교하고 안전한 MLLM의 개발을 위해서는 지속적인 연구와 개발이 필요합니다. 이는 단순히 기술적인 문제를 넘어, AI 기술의 윤리적인 사용과 안전한 사회 구축에 필수적인 요소입니다. 🤔
Reference
[arxiv] Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs
Published: (Updated: )
Author: Wenxuan Wang, Xiaoyuan Liu, Kuiyi Gao, Jen-tse Huang, Youliang Yuan, Pinjia He, Shuai Wang, Zhaopeng Tu
http://arxiv.org/abs/2502.11184v1