#ReferGPT: 제로샷 기반의 혁신적인 다중 객체 추적 기술 등장!
ReferGPT는 제로샷 학습 기반의 혁신적인 다중 객체 추적 프레임워크로, 자연어 질의를 이용하여 영상 내 다수 객체를 추적하는 문제를 해결합니다. 다중 모드 대규모 언어 모델과 강력한 질의 매칭 전략을 활용하여 기존 방식 대비 경쟁력 있는 성능을 보이며, 자율 주행 분야의 발전에 크게 기여할 것으로 예상됩니다.

ReferGPT: 제로샷 기반의 혁신적인 다중 객체 추적 기술 등장!
텍스트 기반 질의를 이용한 다중 객체 추적은 까다로운 과제입니다. 언어 이해와 프레임 간 객체 연관성을 연결해야 하기 때문이죠. 기존 연구들은 대부분 전 과정을 통합적으로 학습하거나, 다중 객체 추적기에 추가적인 참조 텍스트 모듈을 통합하는 방식을 사용했습니다. 하지만 이러한 방식들은 모두 지도 학습을 필요로 하며, 개방형 질의에 대한 일반화에는 어려움을 겪을 수 있습니다.
하지만 이제 희망이 보입니다! Tzoulio Chamiti 등 연구진이 발표한 ReferGPT는 이러한 한계를 극복하는 획기적인 제로샷(Zero-shot) 기반의 다중 객체 추적 프레임워크입니다. 🎉
ReferGPT의 핵심은 다중 모드 대규모 언어 모델(MLLM) 에 공간적 지식을 부여하여 3D 인식 캡션을 생성하는 것입니다. 이를 통해 모델의 기술적 능력이 향상되고, 학습 없이도 유연한 참조 어휘를 사용할 수 있게 됩니다. 또한, CLIP 기반 의미론적 인코딩과 퍼지 매칭을 활용한 강력한 질의 매칭 전략을 통해 MLLM이 생성한 캡션과 사용자 질의를 효과적으로 연결합니다.
Refer-KITTI, Refer-KITTIv2, Refer-KITTI+ 데이터셋에서의 광범위한 실험 결과, ReferGPT는 기존 학습 기반 방식과 비교하여 경쟁력 있는 성능을 달성했습니다. 이는 자율 주행 분야에서 ReferGPT의 뛰어난 강건성과 제로샷 기능을 입증하는 결과입니다. 🚗💨
더 자세한 내용과 코드는 GitHub에서 확인할 수 있습니다.
Reference
[arxiv] ReferGPT: Towards Zero-Shot Referring Multi-Object Tracking
Published: (Updated: )
Author: Tzoulio Chamiti, Leandro Di Bella, Adrian Munteanu, Nikos Deligiannis
http://arxiv.org/abs/2504.09195v1