#ReferGPT: 제로샷 기반의 혁신적인 다중 객체 추적 기술 등장!


ReferGPT는 제로샷 학습 기반의 혁신적인 다중 객체 추적 프레임워크로, 자연어 질의를 이용하여 영상 내 다수 객체를 추적하는 문제를 해결합니다. 다중 모드 대규모 언어 모델과 강력한 질의 매칭 전략을 활용하여 기존 방식 대비 경쟁력 있는 성능을 보이며, 자율 주행 분야의 발전에 크게 기여할 것으로 예상됩니다.

related iamge

ReferGPT: 제로샷 기반의 혁신적인 다중 객체 추적 기술 등장!

텍스트 기반 질의를 이용한 다중 객체 추적은 까다로운 과제입니다. 언어 이해와 프레임 간 객체 연관성을 연결해야 하기 때문이죠. 기존 연구들은 대부분 전 과정을 통합적으로 학습하거나, 다중 객체 추적기에 추가적인 참조 텍스트 모듈을 통합하는 방식을 사용했습니다. 하지만 이러한 방식들은 모두 지도 학습을 필요로 하며, 개방형 질의에 대한 일반화에는 어려움을 겪을 수 있습니다.

하지만 이제 희망이 보입니다! Tzoulio Chamiti 등 연구진이 발표한 ReferGPT는 이러한 한계를 극복하는 획기적인 제로샷(Zero-shot) 기반의 다중 객체 추적 프레임워크입니다. 🎉

ReferGPT의 핵심은 다중 모드 대규모 언어 모델(MLLM) 에 공간적 지식을 부여하여 3D 인식 캡션을 생성하는 것입니다. 이를 통해 모델의 기술적 능력이 향상되고, 학습 없이도 유연한 참조 어휘를 사용할 수 있게 됩니다. 또한, CLIP 기반 의미론적 인코딩과 퍼지 매칭을 활용한 강력한 질의 매칭 전략을 통해 MLLM이 생성한 캡션과 사용자 질의를 효과적으로 연결합니다.

Refer-KITTI, Refer-KITTIv2, Refer-KITTI+ 데이터셋에서의 광범위한 실험 결과, ReferGPT는 기존 학습 기반 방식과 비교하여 경쟁력 있는 성능을 달성했습니다. 이는 자율 주행 분야에서 ReferGPT의 뛰어난 강건성과 제로샷 기능을 입증하는 결과입니다. 🚗💨

더 자세한 내용과 코드는 GitHub에서 확인할 수 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] ReferGPT: Towards Zero-Shot Referring Multi-Object Tracking

Published:  (Updated: )

Author: Tzoulio Chamiti, Leandro Di Bella, Adrian Munteanu, Nikos Deligiannis

http://arxiv.org/abs/2504.09195v1