딥러닝 안전성의 새 지평: SafeVid 프레임워크로 비디오 AI의 안전성을 확보하다
본 기사는 Wang Yixu 등 연구진이 개발한 SafeVid 프레임워크에 대한 내용을 다룹니다. SafeVid는 비디오 AI의 안전성 향상을 위한 혁신적인 접근 방식을 제시하며, 텍스트 기반 안전 정렬 기술과 새로운 데이터셋, 평가 벤치마크를 통해 VLMM의 안전성을 크게 향상시켰습니다.

급속도로 발전하는 비디오 대규모 다중 모달 모델(VLMM)은 그 복잡성으로 인해 안전성 문제에 직면합니다. 특히, 정적인 안전 정렬이 동적인 비디오 환경에 적용되지 못하는 ‘일반화 불일치’ 문제가 심각합니다. 왕이슈 등 연구진이 발표한 논문 “SafeVid: Toward Safety Aligned Video Large Multimodal Models”은 이러한 문제를 해결하기 위한 획기적인 프레임워크, SafeVid를 제시합니다.
SafeVid의 핵심은 텍스트 기반 안전 정렬 기술을 비디오 영역으로 확장하는 것입니다. 단순히 기존의 방법을 적용하는 대신, 상세한 텍스트 기반 비디오 설명을 매개체로 활용하여 LLM(대규모 언어 모델) 기반의 규칙 기반 안전 추론을 가능하게 합니다. 이는 마치 통역사가 두 언어 간의 소통을 돕는 것과 같습니다. 이를 위해 연구진은 세 가지 주요 단계를 거쳤습니다.
- SafeVid-350K 데이터셋 구축: 35만 쌍의 비디오 특화 안전 선호도 데이터셋을 새롭게 구축하여 VLMM의 학습에 활용했습니다. 이 데이터셋은 SafeVid의 성능을 좌우하는 핵심 요소입니다. 이 데이터셋은 Hugging Face를 통해 공개되어(https://huggingface.co/datasets/yxwang/SafeVid-350K), 다른 연구자들도 활용할 수 있도록 했습니다.
- DPO(Direct Preference Optimization)를 이용한 정렬: 직접 선호도 최적화 기법을 사용하여 VLMM을 안전 선호도에 맞춰 정렬했습니다. 이는 모델이 안전하지 않은 행동을 하지 않도록 학습시키는 과정입니다.
- SafeVidBench 벤치마크 평가: 새롭게 개발한 SafeVidBench 벤치마크를 통해 VLMM의 안전성을 종합적으로 평가했습니다. LLaVA-NeXT-Video 모델을 사용한 실험 결과, SafeVid-350K 데이터셋으로 정렬한 모델의 안전성이 최대 42.39% 향상되는 것을 확인했습니다. 이는 SafeVid의 효과를 극적으로 보여주는 결과입니다.
SafeVid는 단순한 기술 제안을 넘어, 안전한 비디오 AI 개발을 위한 필수적인 자원과 구조적인 접근 방식을 제공합니다. 텍스트 설명을 안전 추론의 매개체로 활용하는 아이디어는 비디오 AI의 안전성 향상에 중요한 전환점을 제시하며, 향후 AI 안전 연구에 큰 영향을 미칠 것으로 예상됩니다. 이 연구는 비디오 AI 기술의 발전과 함께, 그 안전성에 대한 고민이 더욱 중요해지고 있음을 보여주는 중요한 사례입니다.
Reference
[arxiv] SafeVid: Toward Safety Aligned Video Large Multimodal Models
Published: (Updated: )
Author: Yixu Wang, Jiaxin Song, Yifeng Gao, Xin Wang, Yang Yao, Yan Teng, Xingjun Ma, Yingchun Wang, Yu-Gang Jiang
http://arxiv.org/abs/2505.11926v1