AVadCLIP: 음향-영상 협업으로 비디오 이상 탐지를 혁신하다!


중국과학원 자동화연구소 연구진이 개발한 AVadCLIP은 CLIP 기반의 음향-영상 협업 프레임워크로, 기존 비디오 이상 탐지 방식의 한계를 극복하고 높은 정확도와 강건성을 달성했습니다. 불확실성 기반 특징 증류 모듈을 통해 단일 모달 데이터에서도 우수한 성능을 보이며, 지능형 감시 분야의 혁신을 이끌 것으로 기대됩니다.

related iamge

첨단 AI 기술로 비디오 이상 탐지의 한계를 뛰어넘다!

지능형 감시 분야에서 비디오 이상 탐지의 중요성이 날로 커지고 있습니다. 하지만 기존의 시각 정보 기반 탐지 방식은 복잡한 환경에서 정보 부족과 높은 오탐율이라는 한계에 직면해 왔습니다.

중국과학원 자동화연구소(IA CAS) 의 연구진(Peng Wu, Wanshun Su, Guansong Pang, Yujia Sun, Qingsen Yan, Peng Wang, Yanning Zhang)이 발표한 AVadCLIP은 이러한 문제를 해결하기 위한 획기적인 솔루션을 제시합니다. AVadCLIP은 음향-영상 정보를 협업적으로 활용하는 새로운 약지도 학습 프레임워크입니다.

CLIP의 강력한 능력을 활용하다

AVadCLIP의 핵심은 바로 Contrastive Language-Image Pretraining (CLIP) 입니다. CLIP의 뛰어난 시각, 음향, 텍스트 도메인 간 크로스-모달 표현 학습 능력을 활용하여 두 가지 혁신적인 기술을 도입했습니다.

  1. 효율적인 음향-영상 융합: 경량 매개변수 적응을 통해 적응적인 크로스-모달 통합을 구현하면서 CLIP 백본은 고정시켜 효율성을 높였습니다.
  2. 혁신적인 음향-영상 프롬프트: 음향-영상 특징과 텍스트 레이블 간의 의미적 상관관계를 기반으로 텍스트 임베딩을 역동적으로 향상시켜 비디오 이상 탐지 작업에 대한 CLIP의 일반화 성능을 크게 개선합니다.

불확실성 기반 특징 증류 모듈: 모달 부족 상황에도 끄떡없이!

추론 중 모달 부족에 대한 강건성을 높이기 위해, 연구진은 불확실성 기반 특징 증류 모듈을 개발했습니다. 이 모듈은 음향-영상 특징의 다양성에 기반한 불확실성 모델링을 사용하여 증류 과정에서 어려운 특징들을 역동적으로 강조합니다. 이는 시각 정보만으로도 높은 성능을 유지할 수 있도록 합니다.

놀라운 결과: 기존 방식을 압도하는 성능!

AVadCLIP은 다양한 벤치마크에서 우수한 성능을 입증했습니다. 특히 음향 정보 통합은 다양한 시나리오에서 이상 탐지 정확도를 크게 향상시켰습니다. 불확실성 기반 증류로 향상된 단일 모달 데이터를 사용하여 기존 단일 모달 VAD 방식을 꾸준히 능가하는 결과를 보여주었습니다.

결론적으로 AVadCLIP은 음향-영상 정보의 협업을 통해 비디오 이상 탐지의 새로운 가능성을 열었습니다. 이는 지능형 감시 시스템의 발전에 크게 기여할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection

Published:  (Updated: )

Author: Peng Wu, Wanshun Su, Guansong Pang, Yujia Sun, Qingsen Yan, Peng Wang, Yanning Zhang

http://arxiv.org/abs/2504.04495v1