훈련 없이도 영상 속 행동을 정확히 파악한다면? VideoGEM의 놀라운 기술
본 기사는 훈련 없이도 영상 내 행동을 정확히 식별하는 VideoGEM 모델에 대한 소개입니다. 고차원 의미 추출, 동적 가중치 조정, 프롬프트 분해 등 핵심 기술과 다양한 데이터셋에서의 SOTA 성능을 통해 VideoGEM의 우수성과 미래 가능성을 조명합니다.

최근 비전-언어 기반 모델들이 이미지 내 객체 위치 파악 등 제로샷 학습 분야에서 놀라운 성과를 보이고 있습니다. 하지만 영상 속 행동이나 사건을 식별하는 것은 여전히 난제였습니다. 행동은 물리적인 윤곽이 불분명하고, 고차원 개념으로 설명되기 때문입니다.
독일 튀빙겐 대학교 연구진을 포함한 국제 연구팀은 이러한 한계를 극복하고자, 훈련 없이도 영상 내 행동을 정확하게 파악하는 획기적인 모델인 VideoGEM을 개발했습니다. Felix Vogel, Walid Bousselham, Anna Kukleva, Nina Shvetsova, 그리고 Hilde Kuehne를 포함한 연구팀은 기존의 GEM(Grounding Embeddings) 방식을 영상 행동 식별에 적용하여 VideoGEM을 구축했습니다.
VideoGEM의 핵심은 다음과 같습니다.
- 고차원 의미 추출: 행동과 같은 고차원 개념은 이미지 및 비디오 언어 모델의 상위 계층에서 나타난다는 점에 착안하여, 자기-주의(self-attention) 메커니즘의 계층 가중치를 조정했습니다. 상위 계층에 더 높은 가중치를 부여함으로써, 고차원 의미를 더욱 효과적으로 포착합니다.
- 동적 가중치 조정: 각 계층의 중요도는 프롬프트에 따라 다르다는 점을 고려하여, 동적 가중치 조정 기법을 도입했습니다. 이를 통해 각 계층의 프롬프트 관련성을 자동으로 조절하여, 더욱 정확한 행동 식별이 가능해졌습니다.
- 프롬프트 분해: 행동, 동사, 객체 프롬프트를 분리하여 처리하는 프롬프트 분해 기법을 통해 행동의 공간적 위치를 더욱 정확하게 파악합니다.
연구팀은 CLIP, OpenCLIP, ViCLIP 등 세 가지 백본 모델과 V-HICO, DALY, YouCook-Interactions, GroundingYouTube 등 네 가지 영상 데이터셋을 이용하여 VideoGEM을 평가했습니다. 그 결과, 기존 최첨단(SOTA) 방식을 능가하는 성능을 달성하며, VideoGEM의 우수성을 입증했습니다. 이는 비지도 학습 방식으로 훈련된 모델이 기존의 지도 학습 방식 모델들을 뛰어넘는 결과를 보여준 매우 중요한 성과입니다.
VideoGEM은 단순한 기술적 진보를 넘어, 자율주행, 로봇공학, 스마트 시티 등 다양한 분야에 혁신을 불러일으킬 잠재력을 가지고 있습니다. 영상 분석의 새로운 가능성을 제시한 VideoGEM의 등장은 앞으로 이 분야의 발전에 큰 영향을 미칠 것으로 기대됩니다.
Reference
[arxiv] VideoGEM: Training-free Action Grounding in Videos
Published: (Updated: )
Author: Felix Vogel, Walid Bousselham, Anna Kukleva, Nina Shvetsova, Hilde Kuehne
http://arxiv.org/abs/2503.20348v1