혁신적인 영상 분석 시스템 AVAS: 초장시간 영상의 시대를 열다


Yan Yuxuan 등의 연구진이 개발한 AVAS는 비디오 언어 모델(VLMs)과 이벤트 지식 그래프(EKGs)를 활용하여 초장시간 영상 분석에서 획기적인 성능을 달성했습니다. 새로운 벤치마크 AVAS-100을 통해 그 성능을 검증하였으며, 다양한 분야에 혁신적인 변화를 가져올 것으로 기대됩니다.

related iamge

인공지능 기반 영상 분석은 다양한 분야에서 핵심적인 역할을 하고 있습니다. 하지만 기존 시스템은 특정 작업에 국한되어 유연성이 부족했습니다. Yan Yuxuan 등 8명의 연구진이 발표한 논문 “Empowering Agentic Video Analytics Systems with Video Language Models”은 이러한 한계를 극복할 획기적인 시스템, AVAS를 소개합니다.

AVAS는 최첨단 비디오 언어 모델(VLMs) 을 활용하여 개방형 영상 분석을 가능하게 합니다. 하지만 기존 VLMs는 짧은 문맥 창 때문에 초장시간 영상 분석에 어려움을 겪었습니다. AVAS는 이 문제를 해결하기 위해 두 가지 핵심 혁신을 도입했습니다.

첫째, 이벤트 지식 그래프(EKGs) 를 활용하여 초장시간 또는 연속적인 영상 스트림을 효율적으로 색인합니다. 둘째, 에이전트 기반 검색-생성 메커니즘을 통해 EKGs를 활용하여 복잡하고 다양한 질문에 대한 답변을 생성합니다.

연구진은 공개 벤치마크인 LVBench와 VideoMME-Long에서 AVAS를 평가했습니다. 그 결과, AVAS는 각각 62.3%와 64.1%의 정확도를 달성하여 기존 VLM 및 영상 검색 증강 생성(RAG) 시스템을 훨씬 능가했습니다. 이는 단순히 기술적인 향상을 넘어, 실제 응용 분야에서 획기적인 성능 향상을 의미합니다.

더 나아가, 연구진은 초장시간 및 개방형 영상 시나리오에서의 영상 분석 평가를 위해 새로운 벤치마크인 AVAS-100을 제시했습니다. AVAS-100은 10시간 이상의 영상 8개와 120개의 수동 주석이 달린 다양하고 복잡한 질문-답변 쌍으로 구성되어 있습니다. AVAS는 AVAS-100에서도 75.8%의 정확도를 달성하며 최고 수준의 성능을 입증했습니다.

AVAS의 등장은 단순한 기술적 발전을 넘어, 영상 분석의 패러다임을 바꿀 잠재력을 가지고 있습니다. 초장시간 영상 분석의 가능성을 열어줌으로써, 보안, 의료, 스포츠 등 다양한 분야에 혁신적인 변화를 가져올 것으로 예상됩니다. AVAS-100 벤치마크는 향후 연구의 중요한 기준이 될 것이며, 더욱 발전된 영상 분석 시스템 개발을 위한 촉매제 역할을 할 것입니다. 앞으로 AVAS와 같은 혁신적인 기술들이 어떻게 우리의 삶을 변화시킬지 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Empowering Agentic Video Analytics Systems with Video Language Models

Published:  (Updated: )

Author: Yuxuan Yan, Shiqi Jiang, Ting Cao, Yifan Yang, Qianqian Yang, Yuanchao Shu, Yuqing Yang, Lili Qiu

http://arxiv.org/abs/2505.00254v3