CityEQA: 도시 공간 이해의 새로운 장을 열다
본 기사는 도시 환경에서의 엠바디드 질의응답(EQA) 과제인 CityEQA와 이를 위한 혁신적인 에이전트 PMA에 대한 최신 연구 결과를 소개합니다. CityEQA-EC 데이터셋과 PMA 에이전트의 성능, 그리고 향후 연구 방향에 대한 논의를 통해 도시 공간 지능 분야의 발전 가능성을 제시합니다.

최근, 실제 환경에서 질문에 답하는 인공지능 에이전트인 엠바디드 질의응답(EQA) 기술이 주목받고 있습니다. 하지만 기존 연구는 주로 실내 환경에 초점을 맞춰, 도시 환경의 복잡성을 충분히 고려하지 못했습니다. Zhao 등 연구진은 이러한 한계를 극복하고자, 도시 공간을 배경으로 한 새로운 EQA 과제인 CityEQA를 제시했습니다.
CityEQA는 다양한 환경, 행동, 인지 과정을 아우르는 역동적인 도시 환경에서 에이전트가 자율적으로 탐색하며 개방형 질문에 답하는 과제입니다. 연구진은 이 과제를 지원하기 위해 CityEQA-EC라는 새로운 벤치마크 데이터셋을 공개했습니다. CityEQA-EC는 실제 3D 도시 시뮬레이터를 기반으로, 6가지 범주에 걸쳐 1,412개의 사람이 직접 주석을 단 과제를 포함하고 있습니다. 이는 도시 환경 EQA 연구의 획기적인 발전입니다.
CityEQA 과제를 성공적으로 수행하기 위해 연구진은 Planner-Manager-Actor (PMA) 라는 혁신적인 에이전트를 개발했습니다. PMA는 장기적인 계획과 계층적인 작업 실행을 가능하게 합니다. Planner는 질문에 대한 답을 찾는 과정을 여러 하위 작업으로 분해하고, Manager는 공간적 추론을 위해 객체 중심의 인지 지도를 유지하며 작업 흐름을 제어합니다. 그리고 Actor는 탐색, 항해, 정보 수집 등의 하위 작업을 수행합니다. 이러한 계층적 구조는 복잡한 도시 환경에서 효율적인 문제 해결을 가능하게 합니다.
실험 결과, PMA 에이전트는 인간 수준의 응답 정확도 60.7%를 달성하여 기존 기반 기술을 상당히 능가하는 성능을 보였습니다. 하지만 아직 인간 수준과의 격차가 존재하며, 이는 CityEQA에서 시각적 추론의 개선 필요성을 시사합니다. CityEQA와 PMA 에이전트는 도시 공간 지능 분야의 미래 발전을 위한 중요한 이정표가 될 것입니다. 데이터셋과 코드는 https://github.com/BiluYong/CityEQA.git 에서 확인할 수 있습니다.
결론적으로, CityEQA는 도시 환경에서의 EQA 연구에 새로운 가능성을 제시하며, PMA 에이전트는 이러한 가능성을 현실로 만들어가는 중요한 첫걸음입니다. 향후 시각적 추론 기술의 발전을 통해 인간 수준의 성능에 더욱 가까워질 것으로 기대됩니다. 이 연구는 스마트시티 구축 및 자율주행 등 다양한 분야에 긍정적인 영향을 미칠 것으로 전망됩니다.
Reference
[arxiv] CityEQA: A Hierarchical LLM Agent on Embodied Question Answering Benchmark in City Space
Published: (Updated: )
Author: Yong Zhao, Kai Xu, Zhengqiu Zhu, Yue Hu, Zhiheng Zheng, Yingfeng Chen, Yatai Ji, Chen Gao, Yong Li, Jincai Huang
http://arxiv.org/abs/2502.12532v1