혁신적인 영상 분석 시스템 AVA: 초장시간 비디오의 시대를 열다
Yan Yuxuan 등이 개발한 AVA 시스템은 VLMs와 EKGs, 에이전트 기반 검색-생성 메커니즘을 통해 초장시간 비디오 분석에서 뛰어난 성능을 보이며, 새로운 벤치마크 AVA-100을 통해 그 성과를 입증했습니다.

AI 기반 영상 분석 기술이 다양한 분야에서 중요한 역할을 수행하고 있지만, 기존 시스템은 특정 작업에 국한되어 유연성이 부족했습니다. Yan Yuxuan 등 8명의 연구진이 개발한 AVA(Agentic Video Analytics) 시스템은 이러한 한계를 극복하는 획기적인 시스템입니다. AVA는 최근 급부상하고 있는 비디오 언어 모델(VLMs) 을 활용하여 개방형 영상 이해, 추론 및 분석을 가능하게 합니다.
하지만 VLMs는 컨텍스트 창의 크기가 제한적이라는 단점이 있습니다. 실제 응용 분야에서 흔히 볼 수 있는 초장시간 비디오를 처리하는 데 어려움이 있었죠. AVA는 이 문제를 해결하기 위해 두 가지 핵심 혁신을 도입했습니다.
첫째, 실시간에 가까운 이벤트 지식 그래프(EKGs) 생성입니다. EKGs는 장시간 또는 연속적인 비디오 스트림을 효율적으로 색인하는 역할을 합니다. 마치 거대한 영상 도서관의 상세한 목록과 같다고 생각하면 됩니다.
둘째, 에이전트 기반 검색-생성 메커니즘입니다. EKGs를 활용하여 복잡하고 다양한 질문에 대한 답을 찾아냅니다. 이는 단순히 키워드 검색을 넘어, 영상 내용을 이해하고 추론하여 질문에 가장 적합한 답을 생성하는 지능적인 시스템입니다. 마치 영상 전문가가 질문에 답변하는 것과 같습니다.
AVA는 공개 벤치마크인 LVBench와 VideoMME-Long에서 각각 62.3%와 64.1%의 정확도를 달성하며 기존 VLM 및 RAG(Retrieval-Augmented Generation) 시스템을 능가하는 성능을 입증했습니다. 뿐만 아니라, 연구진은 초장시간 및 개방형 영상 분석 시나리오 평가를 위한 새로운 벤치마크 AVA-100을 제시했습니다. AVA-100은 각각 10시간 이상의 영상 8개와 수동으로 주석이 달린 다양하고 복잡한 질문-답변 쌍 120개로 구성되어 있습니다. AVA는 AVA-100에서도 75.8%의 정확도를 기록하며 최고 수준의 성능을 보여주었습니다.
AVA는 단순한 영상 분석 시스템을 넘어, 초장시간 비디오 데이터를 효율적이고 지능적으로 분석하는 새로운 패러다임을 제시합니다. 앞으로 보안, 의료, 스포츠 분석 등 다양한 분야에서 혁신적인 변화를 가져올 것으로 기대됩니다. 하지만, 더욱 다양한 데이터셋과 실제 적용 사례를 통해 AVA의 성능과 한계를 지속적으로 검증하는 것이 중요할 것입니다. 💯
Reference
[arxiv] Empowering Agentic Video Analytics Systems with Video Language Models
Published: (Updated: )
Author: Yuxuan Yan, Shiqi Jiang, Ting Cao, Yifan Yang, Qianqian Yang, Yuanchao Shu, Yuqing Yang, Lili Qiu
http://arxiv.org/abs/2505.00254v1