숏폼 영상 시대, AI는 어떻게 변화할까요? - 초상 모드 영상에 특화된 새로운 AVEL 데이터셋 등장
본 기사는 초상 모드 숏폼 영상에 특화된 최초의 AVEL 데이터셋 AVE-PM의 등장과, 이를 통해 밝혀진 기존 AVEL 기술의 한계, 그리고 새로운 해결책을 제시하는 연구에 대한 내용을 담고 있습니다. 연구진은 데이터셋 구축뿐 아니라, 최적의 전처리 방법 및 배경 음악의 영향 분석을 통해 실질적인 문제 해결 방안을 제시함으로써 학문적, 실용적 가치를 모두 충족하는 연구 결과를 도출했습니다.

스마트폰의 보급으로 짧은 영상이 온라인 콘텐츠의 주류가 된 지금, 인공지능(AI)은 이러한 변화에 어떻게 적응하고 있을까요? 최근 Liu, Chai, Yan, Ren 등이 발표한 논문 "Audio-visual Event Localization on Portrait Mode Short Videos"는 이 질문에 대한 흥미로운 답을 제시합니다.
기존 기술의 한계를 넘어: AVE-PM 데이터셋
기존의 시청각 이벤트 위치 파악(Audio-visual Event Localization, AVEL) 기술은 주로 긴 가로형 영상과 깨끗한 오디오 환경을 가정했습니다. 하지만 숏폼 영상은 세로형 프레임과 겹치는 효과음, 내레이션, 음악 등 복잡한 오디오 구성이 특징입니다. 이러한 차이점은 기존 AVEL 기술의 성능 저하로 이어집니다. 논문에서 연구진은 이러한 문제를 해결하기 위해 초상 모드 숏폼 영상에 특화된 최초의 AVEL 데이터셋, AVE-PM을 제작했습니다. AVE-PM은 86개의 세분화된 범주를 포함하는 25,335개의 클립으로 구성되어 있으며, 프레임 단위의 주석이 달려 있습니다. 이는 기존 데이터셋의 한계를 뛰어넘는 중요한 진전입니다.
새로운 도전과 혁신적인 해결책
연구진은 AVE-PM 데이터셋을 이용하여 기존 최첨단 AVEL 방법론을 평가한 결과, 평균 18.66%의 성능 저하를 확인했습니다. 이를 통해 세로형 영상의 공간적 편향과 잡음이 많은 오디오 구성이라는 두 가지 주요 과제를 밝혀냈습니다. 단순히 문제 제기만 한 것이 아니라, 연구진은 최적의 전처리 방법과 배경 음악의 영향에 대한 분석을 통해 이러한 문제에 대한 실질적인 해결책을 제시했습니다. 특히, 맞춤형 전처리와 전문화된 모델 설계를 통해 성능 향상을 달성할 수 있음을 보여주었습니다.
미래를 위한 발걸음
이 연구는 단순한 데이터셋 제작을 넘어, 모바일 중심의 영상 콘텐츠 시대에 적합한 AVEL 기술 개발을 위한 기준점과 실행 가능한 통찰력을 제공합니다. 공개된 데이터셋과 코드는 앞으로 AVEL 연구의 발전에 크게 기여할 것으로 기대됩니다. 이 연구는 AI 기술이 시장의 변화에 얼마나 민첩하게 반응하고 발전해 나가는지를 보여주는 좋은 사례입니다. 앞으로 AI 기술이 숏폼 영상 시대를 어떻게 더욱 풍요롭게 만들어갈지 기대됩니다. 😊
Reference
[arxiv] Audio-visual Event Localization on Portrait Mode Short Videos
Published: (Updated: )
Author: Wuyang Liu, Yi Chai, Yongpeng Yan, Yanzhen Ren
http://arxiv.org/abs/2504.06884v1