🚨 영상 기반 AI 안전성 위협과 혁신적인 해결책: VideoSafetyBench와 VideoSafety-R1

본 기사는 영상 기반 거대 언어 모델의 안전성 문제를 다룬 연구 논문을 소개합니다. 연구진은 새로운 벤치마크 VideoSafetyBench(VSB-77k)를 통해 영상 모달리티가 안전성을 저하시킨다는 사실을 밝히고, 이를 해결하기 위한 혁신적인 프레임워크 VideoSafety-R1을 제시했습니다. VideoSafety-R1은 경고 토큰 기반 미세 조정과 안전성 기반 정책 최적화를 통해 안전성을 크게 향상시켜, AI 안전성 확보에 중요한 발걸음을 내딛었습니다.

영상 AI 시대의 안전성 위협: 우리는 얼마나 준비되어 있을까?

최근 급속도로 발전하는 인공지능 기술은 우리 삶에 놀라운 변화를 가져다주고 있습니다. 그러나 이러한 기술 발전과 더불어, 특히 영상 기반 거대 언어 모델(Video LLM)과 같은 멀티모달 AI의 안전성에 대한 우려 또한 커지고 있습니다. Yiwei Sun 등 연구진이 발표한 논문 "From Evaluation to Defense: Advancing Safety in Video Large Language Models"은 바로 이러한 문제의 심각성을 일깨워주는 중요한 연구입니다.

77,646개의 영상 데이터로 확인된 충격적인 결과: VideoSafetyBench (VSB-77k)

연구진은 VideoSafetyBench (VSB-77k) 라는 대규모 영상 안전성 벤치마크를 최초로 공개했습니다. 10개 언어권에서 수집된 77,646개의 영상-질문 쌍을 사용하여 19가지 주요 위험 범주를 분석한 결과, 놀랍게도 영상 모달리티의 통합은 안전성 성능을 평균 42.3%나 저하시키는 것으로 나타났습니다. 이것은 멀티모달 공격에 대한 시스템적 위험을 보여주는 매우 우려스러운 결과입니다.

혁신적인 안전성 강화 프레임워크: VideoSafety-R1

이러한 문제를 해결하기 위해 연구진은 VideoSafety-R1 이라는 혁신적인 프레임워크를 제시했습니다. VideoSafety-R1은 다음 두 가지 핵심 기술을 통해 안전성을 대폭 향상시킵니다.

경고 토큰 기반 안전성 미세 조정 (AT-SFT): 학습 가능한 경고 토큰을 시각 및 텍스트 시퀀스에 주입하여 다중 작업 목표를 통해 다양한 모달리티에서 유해성을 명시적으로 인식하도록 합니다.
안전성 기반 GRPO: 이중 모달리티 검증에서 파생된 규칙 기반 보상을 사용하여 동적 정책 최적화를 통해 방어적 추론을 강화합니다.

이러한 두 가지 기술의 시너지 효과를 통해 안전성 정렬을 수동적 유해성 인식에서 능동적 추론으로 전환하는 것이 핵심입니다. VideoSafety-R1은 VSB-Eval-HH에서 65.1%의 성능 향상을 달성했으며, MMBench, VLGuard, FigStep과 같은 기존 이미지 안전성 데이터셋에서도 각각 59.1%, 44.3%, 15.0%의 성능 향상을 보였습니다.

(주의: 본 논문에는 유해한 언어와 영상의 예시가 포함되어 있으므로, 독자의 신중한 판단이 필요합니다.)

결론: 안전한 AI 시대를 위한 지속적인 노력

VideoSafetyBench와 VideoSafety-R1의 개발은 영상 기반 AI의 안전성 문제에 대한 중요한 진전을 의미합니다. 그러나 이는 시작에 불과하며, 앞으로도 지속적인 연구와 개발 노력을 통해 더욱 안전하고 신뢰할 수 있는 AI 시스템을 구축하는 것이 중요합니다. 이 연구는 AI 기술의 윤리적 책임과 안전성에 대한 끊임없는 고민과 성찰을 촉구하는 중요한 메시지를 전달하고 있습니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] From Evaluation to Defense: Advancing Safety in Video Large Language Models

Published: (Updated: )

Author: Yiwei Sun, Peiqi Jiang, Chuanbin Liu, Luohao Lin, Zhiying Lu, Hongtao Xie

http://arxiv.org/abs/2505.16643v1