도시 상공에서의 자율 드론 시각적 물체 탐색: CityAVOS 벤치마크와 PRPSearcher 알고리즘
본 기사는 도시 환경에서의 자율 드론 시각적 물체 탐색을 위한 새로운 벤치마크 데이터셋 CityAVOS와 인간의 인지 과정을 모방한 에이전트 기반 방법론 PRPSearcher를 소개합니다. PRPSearcher는 기존 방법보다 성능이 우수하지만, 인간 수준의 성능 달성을 위해서는 더욱 발전된 의미적 추론과 공간적 탐색 능력이 필요함을 시사합니다.

도시 환경에서의 자율 비행 드론을 이용한 시각적 물체 탐색(AVOS)은 외부 안내 없이 시각 및 텍스트 단서를 사용하여 목표 물체를 자율적으로 검색하고 식별하는 것을 목표로 합니다. 기존 방법들은 복잡한 도시 환경에서 중복되는 의미 처리, 유사한 물체 구분, 탐색-활용의 딜레마 등으로 어려움을 겪어왔습니다.
이러한 문제를 해결하고 AVOS 작업을 지원하기 위해, 지, 주, 조 등 10명의 연구원이 CityAVOS라는 새로운 벤치마크 데이터셋을 발표했습니다. CityAVOS는 6가지 물체 범주에 걸쳐 다양한 난이도의 2,420개 과제를 포함하여 UAV 에이전트의 탐색 능력을 종합적으로 평가할 수 있도록 설계되었습니다. 데이터셋과 소스 코드는 https://anonymous.4open.science/r/CityAVOS-3DF8 에서 확인 가능합니다.
연구팀은 또한, 인간의 3단계 인지 과정(지각-추론-계획)을 모방한 새로운 에이전트 기반 방법인 PRPSearcher(Perception-Reasoning-Planning Searcher)를 제안했습니다. PRPSearcher는 다중 모달 대규모 언어 모델(MLLM)을 기반으로 하며, 세 가지 특수 지도를 생성합니다:
- 물체 중심의 동적 의미 지도: 공간적 지각을 향상시킵니다.
- 3D 인지 지도: 목표 추론을 위한 의미적 매력 값을 기반으로 합니다.
- 3D 불확실성 지도: 균형 잡힌 탐색-활용 검색을 위해 사용됩니다.
더 나아가, PRPSearcher는 유사한 물체로 인한 간섭을 완화하기 위한 잡음 제거 메커니즘과 적응적 행동 계획을 위한 영감 촉진 사고(IPT) 프롬프트 메커니즘을 통합합니다.
CityAVOS에서의 실험 결과, PRPSearcher는 성공률과 탐색 효율성 면에서 기존 기준 모델을 능가하는 것으로 나타났습니다 (평균: 성공률 +37.69%, SPL +28.96%, MSS -30.69%, NE -46.40%). 하지만, 여전히 인간과의 성능 차이가 존재하며, 이는 AVOS 작업에서 더 나은 의미적 추론과 공간적 탐색 능력의 필요성을 보여줍니다. 이 연구는 구현된 목표 검색 분야의 미래 발전을 위한 기반을 마련합니다.
🎉 이 연구는 자율 주행 드론 기술 발전에 중요한 기여를 할 것으로 기대됩니다! 도시 환경에서의 효율적인 물체 탐색은 다양한 분야(배송, 감시, 탐색 등)에 혁신적인 변화를 가져올 것입니다. 하지만, 인간 수준의 성능에 도달하기 위해서는 더욱 심도있는 연구가 필요합니다. 특히, 복잡한 도시 환경에서의 의미적 추론 및 공간적 탐색 능력 향상에 대한 연구가 중요한 과제로 남아 있습니다.
Reference
[arxiv] Towards Autonomous UAV Visual Object Search in City Space: Benchmark and Agentic Methodology
Published: (Updated: )
Author: Yatai Ji, Zhengqiu Zhu, Yong Zhao, Beidan Liu, Chen Gao, Yihao Zhao, Sihang Qiu, Yue Hu, Quanjun Yin, Yong Li
http://arxiv.org/abs/2505.08765v2