혁신적인 영상 분석 시스템 AVAS: 초장시간 비디오의 시대를 열다


Yan Yuxuan 등 연구진이 개발한 AVAS는 VLM과 EKG, 에이전트 기반 검색-생성 메커니즘을 활용하여 초장시간 영상 분석의 새로운 기준을 제시했습니다. 기존 시스템보다 월등한 성능을 보이며, 다양한 분야에서 혁신을 가져올 것으로 예상됩니다.

related iamge

인공지능 기반 영상 분석 기술이 다양한 분야에서 중추적인 역할을 하고 있지만, 기존 시스템들은 특정 작업에 한정되어 유연성이 부족했습니다. Yan Yuxuan 등 8명의 연구진이 개발한 AVAS(Agentic Video Analytics System) 는 이러한 한계를 극복하기 위해 등장했습니다. AVAS는 비디오 언어 모델(VLM) 을 활용하여 개방형 영상 이해, 추론 및 분석을 가능하게 하는 혁신적인 시스템입니다.

하지만 VLM은 처리 가능한 영상 길이에 제약이 있습니다. 실제 세상의 영상들은 몇 시간, 혹은 며칠씩 이어지는 초장시간 영상이 흔하기 때문에 이는 큰 문제였습니다. 연구진은 이 문제를 해결하기 위해 두 가지 핵심 기술을 도입했습니다.

첫째, 실시간에 가까운 이벤트 지식 그래프(EKG, Event Knowledge Graphs) 생성입니다. EKG는 초장시간 영상 스트림을 효율적으로 색인화하여 필요한 정보에 빠르게 접근할 수 있도록 돕는 기술입니다. 마치 방대한 도서관에 정교한 색인 시스템을 구축하여 원하는 책을 빠르게 찾는 것과 같습니다.

둘째, 에이전트 기반 검색-생성 메커니즘입니다. 이는 EKG를 활용하여 복잡하고 다양한 질문에 대해 정확한 답을 생성하는 기술입니다. 사용자의 질문에 따라 시스템이 스스로 판단하고 필요한 정보를 EKG에서 찾아 정교한 답변을 만들어내는 것입니다. 마치 숙련된 조사관이 방대한 자료에서 핵심 정보를 추출하여 사건을 해결하는 것과 같습니다.

AVAS의 성능은 기존 기술을 압도합니다. LVBench와 VideoMME-Long 벤치마크에서 각각 62.3%, 64.1%의 정확도를 달성하여 기존 VLM 및 RAG(Retrieval-Augmented Generation) 시스템을 크게 앞질렀습니다. 더욱 놀라운 것은, 연구진이 새롭게 제시한 AVAS-100 벤치마크에서의 성능입니다. AVAS-100은 각각 10시간 이상의 영상 8개와 120개의 수동 주석이 달린 복잡한 질문-답변 쌍으로 구성되어 있습니다. AVAS는 이 까다로운 벤치마크에서도 75.8%라는 최고 수준의 정확도를 기록했습니다.

AVAS는 단순한 영상 분석 시스템을 넘어, 초장시간 영상 데이터를 효율적이고 정확하게 분석하는 새로운 지평을 열었습니다. 이 기술은 자율주행, 보안 감시, 의료 영상 분석 등 다양한 분야에서 혁신을 가져올 것으로 기대됩니다. 하지만, 초장시간 영상 분석에 필요한 막대한 계산 자원과 데이터 저장 공간 문제는 향후 해결해야 할 과제입니다. 또한, 모델의 편향성이나 윤리적 문제 또한 주의 깊게 고려되어야 합니다. AVAS의 발전은 지속적인 관심과 연구를 필요로 합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Empowering Agentic Video Analytics Systems with Video Language Models

Published:  (Updated: )

Author: Yuxuan Yan, Shiqi Jiang, Ting Cao, Yifan Yang, Qianqian Yang, Yuanchao Shu, Yuqing Yang, Lili Qiu

http://arxiv.org/abs/2505.00254v2