COST: 비전-언어 소형 객체 추적을 위한 대조적 단일 단계 Transformer


본 논문은 비전-언어(VL) 추적 알고리즘 개선에 Transformer를 활용한 COST 모델을 제시하며, 소형 객체 추적을 위한 새로운 데이터셋 VL-SOT500을 공개합니다. 단일 단계 대조적 융합 전략으로 효율성을 높였고, 다양한 데이터셋에서 최첨단 성능을 기록했습니다.

related iamge

혁신적인 VL 추적 기술, COST 등장!

중국 연구진(Chunhui Zhang 외 7명)이 발표한 논문 "COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking"은 비전-언어(VL) 추적 분야에 혁신적인 기술을 제시합니다. 기존의 VL 추적기들은 복잡한 다단계 다모달 융합 방식에 의존하여 효율성이 떨어지고, 모달 간의 분포 불일치 문제로 인해 최적의 표현 학습에 어려움을 겪었습니다.

단일 단계에서의 효율적인 융합: COST의 핵심

COST는 이러한 문제점을 해결하기 위해 대조적 단일 단계 Transformer 융합 프레임워크를 제시합니다. 비디오와 해당 언어 설명 간의 상호 정보(MI)를 극대화하는 대조적 정렬 전략을 통해 의미론적으로 일관된 특징을 효과적으로 추출합니다. 단일 단계에서 시각-언어 정보를 통합하는 효율적인 메커니즘을 구축하여, Transformer 인코더의 간단한 스택을 통해 통합된 VL 표현을 생성합니다.

소형 객체 추적을 위한 새로운 벤치마크: VL-SOT500

논문은 소형 객체 추적에 특화된 새로운 VL 추적 벤치마크 데이터셋 VL-SOT500을 공개했습니다. VL-SOT230과 VL-SOT270 두 개의 하위 데이터셋으로 구성되어 있으며, 일반적인 소형 객체 추적과 고속 소형 객체 추적을 각각 평가하는 데 활용됩니다. 소형 객체는 외형이 흐릿하고 특징이 제한적이어서 추적이 매우 어려운데, VL-SOT500은 언어 정보를 활용하여 시각적 표현을 향상시키는 최초의 데이터셋입니다.

최첨단 성능과 공개된 자원

COST는 기존의 다섯 개 VL 추적 데이터셋과 새롭게 공개된 VL-SOT500 데이터셋 모두에서 최첨단 성능을 달성했습니다. 더욱이, 연구진은 소스 코드와 데이터셋을 공개하여 학계의 지속적인 발전에 기여하고자 합니다. 이 연구는 비전-언어 추적 기술의 발전에 중요한 이정표를 세웠으며, 소형 객체 추적 분야의 난제 해결에 큰 도움을 줄 것으로 기대됩니다. 앞으로 COST가 더욱 발전하여 다양한 실제 응용 분야에서 활용될 수 있기를 기대합니다.


키워드: #비전언어추적, #Transformer, #소형객체추적, #대조학습, #VL-SOT500, #딥러닝, #컴퓨터비전


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking

Published:  (Updated: )

Author: Chunhui Zhang, Li Liu, Jialin Gao, Xin Sun, Hao Wen, Xi Zhou, Shiming Ge, Yanfeng Wang

http://arxiv.org/abs/2504.01321v1