첨단 AI, 보행자 제스처는 아직 '글쎄'? 🤔 자율주행의 숨겨진 과제
최첨단 Vision-Language Model (VLM)의 보행자 제스처 이해 능력 평가 연구 결과 발표. 연구 결과, 현재 기술 수준으로는 자율주행차의 안전한 운행을 위한 보행자 제스처 이해가 충분하지 않다는 것을 확인. 향후 추가 연구 및 데이터 확보의 필요성 강조.

자율 주행 자동차, 우리의 미래 교통 시스템을 혁신할 꿈의 기술이죠. 하지만 아직 해결해야 할 과제들이 산적해 있습니다. 그중 하나가 바로 보행자의 제스처 이해입니다. 상상해보세요. 길을 건너려는 보행자가 손짓으로 차량 정지를 요청하는데, 자율주행차가 그 의미를 제대로 파악하지 못한다면? 끔찍한 사고로 이어질 수 있겠죠.
최근 Tonko E. W. Bossen 등 연구진이 발표한 논문, "Can Vision-Language Models Understand and Interpret Dynamic Gestures from Pedestrians?"은 바로 이 문제에 주목합니다. 연구진은 최첨단 Vision-Language Model (VLM)이 보행자의 동적 제스처, 즉 손짓, 몸짓 등을 얼마나 잘 이해하고 해석하는지 실험했습니다.
연구진은 '정지', '후진', '호출' 등 다양한 교통 제스처를 담은 두 개의 새로운 데이터셋, "Acted TG (ATG)"와 "Instructive TG In-The-Wild (ITGI)"를 공개했습니다. 이 데이터셋은 전문가가 직접 작성한 자연어로 보행자의 몸짓과 제스처를 상세히 설명하고 있습니다. 이를 바탕으로 세 가지 평가 방법 (캡션 유사도, 제스처 분류, 자세 시퀀스 재구성 유사도)을 사용하여 VLM의 성능을 측정했습니다.
결과는 어땠을까요? 안타깝게도 현재의 최첨단 VLM들은 보행자 제스처 이해에 어려움을 겪는 것으로 나타났습니다. 문장 유사도는 평균 0.59 미만에 그쳤고, 제스처 분류의 F1 점수는 0.14~0.39로 전문가 수준(0.70)에 훨씬 못 미쳤습니다. 자세 재구성은 어느 정도 가능성을 보였지만, 신뢰할 수 있을 만큼 정확한 결과를 얻으려면 더 많은 데이터와 정교한 평가 지표가 필요합니다.
이 연구는 자율주행 기술의 안전성 확보를 위해 보행자 제스처 이해 기술의 고도화가 시급함을 보여줍니다. 현재 기술로는 자율주행차가 보행자의 의도를 정확하게 파악하고 안전하게 반응하기에는 부족하다는 것이죠. 향후 더욱 정교한 VLM 개발과 방대한 데이터 확보를 통해 이 문제를 해결해야 자율주행 시대의 안전하고 편리한 교통 환경을 구축할 수 있을 것입니다. 연구진의 노력과 더불어, 우리 모두의 관심과 지속적인 연구가 필요한 시점입니다.
Reference
[arxiv] Can Vision-Language Models Understand and Interpret Dynamic Gestures from Pedestrians? Pilot Datasets and Exploration Towards Instructive Nonverbal Commands for Cooperative Autonomous Vehicles
Published: (Updated: )
Author: Tonko E. W. Bossen, Andreas Møgelmose, Ross Greer
http://arxiv.org/abs/2504.10873v1