혁신적인 영상 분석 시스템 AVAS: 초장시간 영상의 시대를 열다
Yan Yuxuan 등의 연구진이 개발한 AVAS는 비디오 언어 모델(VLMs)과 이벤트 지식 그래프(EKGs)를 활용하여 초장시간 영상 분석에서 획기적인 성능을 달성했습니다. 새로운 벤치마크 AVAS-100을 통해 그 성능을 검증하였으며, 다양한 분야에 혁신적인 변화를 가져올 것으로 기대됩니다.

인공지능 기반 영상 분석은 다양한 분야에서 핵심적인 역할을 하고 있습니다. 하지만 기존 시스템은 특정 작업에 국한되어 유연성이 부족했습니다. Yan Yuxuan 등 8명의 연구진이 발표한 논문 “Empowering Agentic Video Analytics Systems with Video Language Models”은 이러한 한계를 극복할 획기적인 시스템, AVAS를 소개합니다.
AVAS는 최첨단 비디오 언어 모델(VLMs) 을 활용하여 개방형 영상 분석을 가능하게 합니다. 하지만 기존 VLMs는 짧은 문맥 창 때문에 초장시간 영상 분석에 어려움을 겪었습니다. AVAS는 이 문제를 해결하기 위해 두 가지 핵심 혁신을 도입했습니다.
첫째, 이벤트 지식 그래프(EKGs) 를 활용하여 초장시간 또는 연속적인 영상 스트림을 효율적으로 색인합니다. 둘째, 에이전트 기반 검색-생성 메커니즘을 통해 EKGs를 활용하여 복잡하고 다양한 질문에 대한 답변을 생성합니다.
연구진은 공개 벤치마크인 LVBench와 VideoMME-Long에서 AVAS를 평가했습니다. 그 결과, AVAS는 각각 62.3%와 64.1%의 정확도를 달성하여 기존 VLM 및 영상 검색 증강 생성(RAG) 시스템을 훨씬 능가했습니다. 이는 단순히 기술적인 향상을 넘어, 실제 응용 분야에서 획기적인 성능 향상을 의미합니다.
더 나아가, 연구진은 초장시간 및 개방형 영상 시나리오에서의 영상 분석 평가를 위해 새로운 벤치마크인 AVAS-100을 제시했습니다. AVAS-100은 10시간 이상의 영상 8개와 120개의 수동 주석이 달린 다양하고 복잡한 질문-답변 쌍으로 구성되어 있습니다. AVAS는 AVAS-100에서도 75.8%의 정확도를 달성하며 최고 수준의 성능을 입증했습니다.
AVAS의 등장은 단순한 기술적 발전을 넘어, 영상 분석의 패러다임을 바꿀 잠재력을 가지고 있습니다. 초장시간 영상 분석의 가능성을 열어줌으로써, 보안, 의료, 스포츠 등 다양한 분야에 혁신적인 변화를 가져올 것으로 예상됩니다. AVAS-100 벤치마크는 향후 연구의 중요한 기준이 될 것이며, 더욱 발전된 영상 분석 시스템 개발을 위한 촉매제 역할을 할 것입니다. 앞으로 AVAS와 같은 혁신적인 기술들이 어떻게 우리의 삶을 변화시킬지 기대됩니다.
Reference
[arxiv] Empowering Agentic Video Analytics Systems with Video Language Models
Published: (Updated: )
Author: Yuxuan Yan, Shiqi Jiang, Ting Cao, Yifan Yang, Qianqian Yang, Yuanchao Shu, Yuqing Yang, Lili Qiu
http://arxiv.org/abs/2505.00254v3