숏폼 영상 시대, AI는 어떻게 변화할까요? - 초상 모드 영상에 특화된 새로운 AVEL 데이터셋 등장


본 기사는 초상 모드 숏폼 영상에 특화된 최초의 AVEL 데이터셋 AVE-PM의 등장과, 이를 통해 밝혀진 기존 AVEL 기술의 한계, 그리고 새로운 해결책을 제시하는 연구에 대한 내용을 담고 있습니다. 연구진은 데이터셋 구축뿐 아니라, 최적의 전처리 방법 및 배경 음악의 영향 분석을 통해 실질적인 문제 해결 방안을 제시함으로써 학문적, 실용적 가치를 모두 충족하는 연구 결과를 도출했습니다.

related iamge

스마트폰의 보급으로 짧은 영상이 온라인 콘텐츠의 주류가 된 지금, 인공지능(AI)은 이러한 변화에 어떻게 적응하고 있을까요? 최근 Liu, Chai, Yan, Ren 등이 발표한 논문 "Audio-visual Event Localization on Portrait Mode Short Videos"는 이 질문에 대한 흥미로운 답을 제시합니다.

기존 기술의 한계를 넘어: AVE-PM 데이터셋

기존의 시청각 이벤트 위치 파악(Audio-visual Event Localization, AVEL) 기술은 주로 긴 가로형 영상과 깨끗한 오디오 환경을 가정했습니다. 하지만 숏폼 영상은 세로형 프레임과 겹치는 효과음, 내레이션, 음악 등 복잡한 오디오 구성이 특징입니다. 이러한 차이점은 기존 AVEL 기술의 성능 저하로 이어집니다. 논문에서 연구진은 이러한 문제를 해결하기 위해 초상 모드 숏폼 영상에 특화된 최초의 AVEL 데이터셋, AVE-PM을 제작했습니다. AVE-PM은 86개의 세분화된 범주를 포함하는 25,335개의 클립으로 구성되어 있으며, 프레임 단위의 주석이 달려 있습니다. 이는 기존 데이터셋의 한계를 뛰어넘는 중요한 진전입니다.

새로운 도전과 혁신적인 해결책

연구진은 AVE-PM 데이터셋을 이용하여 기존 최첨단 AVEL 방법론을 평가한 결과, 평균 18.66%의 성능 저하를 확인했습니다. 이를 통해 세로형 영상의 공간적 편향잡음이 많은 오디오 구성이라는 두 가지 주요 과제를 밝혀냈습니다. 단순히 문제 제기만 한 것이 아니라, 연구진은 최적의 전처리 방법과 배경 음악의 영향에 대한 분석을 통해 이러한 문제에 대한 실질적인 해결책을 제시했습니다. 특히, 맞춤형 전처리와 전문화된 모델 설계를 통해 성능 향상을 달성할 수 있음을 보여주었습니다.

미래를 위한 발걸음

이 연구는 단순한 데이터셋 제작을 넘어, 모바일 중심의 영상 콘텐츠 시대에 적합한 AVEL 기술 개발을 위한 기준점실행 가능한 통찰력을 제공합니다. 공개된 데이터셋과 코드는 앞으로 AVEL 연구의 발전에 크게 기여할 것으로 기대됩니다. 이 연구는 AI 기술이 시장의 변화에 얼마나 민첩하게 반응하고 발전해 나가는지를 보여주는 좋은 사례입니다. 앞으로 AI 기술이 숏폼 영상 시대를 어떻게 더욱 풍요롭게 만들어갈지 기대됩니다. 😊


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Audio-visual Event Localization on Portrait Mode Short Videos

Published:  (Updated: )

Author: Wuyang Liu, Yi Chai, Yongpeng Yan, Yanzhen Ren

http://arxiv.org/abs/2504.06884v1