혁신적인 Target-Aware Transformer: 더욱 정확한 영상 기반 객체 탐색의 탄생


중국과학원 자동화연구소 연구팀이 개발한 Target-Aware Transformer(TA-STVG)는 기존 Transformer 기반 STVG의 한계를 극복하고, 텍스트 기반 시간적 샘플링과 속성 기반 공간적 활성화 모듈을 통해 목표 대상에 특화된 객체 쿼리를 생성하여 최첨단 성능을 달성했습니다.

related iamge

최근 딥러닝 분야에서 Transformer는 비디오 이해 및 객체 탐색과 같은 다양한 영역에서 괄목할 만한 성과를 보여주고 있습니다. 특히, 시공간적 비디오 그라운딩(STVG) 분야에서 Transformer는 end-to-end 파이프라인과 우수한 성능으로 주목받고 있습니다. 하지만 기존 Transformer 기반 STVG 접근 방식은 0으로 초기화된 객체 쿼리를 사용하는데, 이는 복잡한 시나리오(예: 방해 요소나 가림)에서 차별적인 목표 정보를 학습하는 데 어려움을 겪습니다.

중국과학원 자동화연구소 연구팀Gu Xin 박사를 비롯한 연구진은 이러한 문제를 해결하기 위해 혁신적인 Target-Aware Transformer(TA-STVG) 를 개발했습니다. TA-STVG의 핵심은 텍스트 기반 시간적 샘플링(TTS)속성 기반 공간적 활성화(ASA) 라는 두 가지 모듈에 있습니다.

TTS는 비디오-텍스트 쌍에서 전체적인 텍스트 정보를 활용하여 목표와 관련된 시간적 단서를 선택적으로 추출합니다. ASA는 TTS에서 얻은 목표 인식 시간적 단서를 바탕으로 객체의 세분화된 시각적 속성 정보를 추가적으로 활용하여 객체 쿼리를 초기화합니다. 즉, TA-STVG는 0으로 초기화된 객체 쿼리가 아닌, 비디오-텍스트 쌍으로부터 직접 생성된, 목표 대상에 특화된 정보를 담은 객체 쿼리를 사용합니다. 이러한 접근 방식은 객체 쿼리가 다중 모달 특징과 더욱 효과적으로 상호 작용하여 차별적인 정보를 학습하고 STVG 성능을 향상시킬 수 있도록 합니다.

세 가지 벤치마크 실험 결과, TA-STVG는 최첨단 성능을 달성했으며, 기존 방식을 상당히 능가하는 성능을 보여주었습니다. 이는 TA-STVG의 효과성을 명확하게 입증하는 결과입니다. TA-STVG의 등장은 STVG 분야에 새로운 가능성을 열었을 뿐 아니라, 더욱 정확하고 효율적인 영상 기반 객체 탐색 기술 개발에 중요한 이정표가 될 것으로 기대됩니다.

결론적으로, TA-STVG는 기존의 한계를 뛰어넘는 혁신적인 기술이며, 더욱 정교하고 효율적인 영상 분석 및 객체 탐색 시스템 구축에 기여할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding

Published:  (Updated: )

Author: Xin Gu, Yaojie Shen, Chenxi Luo, Tiejian Luo, Yan Huang, Yuewei Lin, Heng Fan, Libo Zhang

http://arxiv.org/abs/2502.11168v1