폐색된 물체 인식: 시각 언어 모델의 공간 추론 능력 평가 (CAPTURe)


본 연구는 시각 언어 모델(VLM)의 공간 추론 능력을 평가하기 위한 새로운 벤치마크인 CAPTURe를 제시하고, 최첨단 VLM들이 폐색된 물체에 대한 추론 능력이 부족함을 밝혔습니다. 추가 정보 제공이 성능 향상에 기여하며, 향후 VLM의 공간 추론 능력 향상 연구에 중요한 시사점을 제공합니다.

related iamge

실제 세계에서 물체의 폐색(부분적 또는 완전한 가림)은 흔히 발생하며, 이는 시각적 장면 이해와 공간적 이해에 어려움을 야기합니다. Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal 등 연구진은 이러한 문제점을 해결하기 위해, 폐색된 물체에 대한 추론 능력을 평가하는 새로운 과제인 CAPTURe (Counting Amodally for Patterns Through Unseen REgions) 를 제시했습니다.

CAPTURe는 패턴으로 배열된 물체의 개수를 세도록 하는 과제로, 가림물체(장면의 일부를 가리는 물체) 뒤에 패턴이 어떻게 계속되는지 추론해야 합니다. 이는 시각적 패턴 인식과 추론 능력을 모두 필요로 하므로, 시각 언어 모델(VLMs)의 공간적 이해 능력을 평가하는 유용한 척도가 됩니다. 특히, 폐색된 물체에 대한 추론을 요구함으로써, VLM이 누락된 정보를 채우는 세계 모델을 형성하는 능력도 평가합니다.

CAPTURe는 실제 물체의 이미지를 사용한 CAPTURe-real과 생성된 패턴 이미지를 사용한 CAPTURe-synthetic의 두 가지 부분으로 구성됩니다. 연구진은 GPT-4o, Intern-VL2, Molmo, Qwen2-VL 등 네 가지 강력한 VLM을 CAPTURe로 평가했습니다. 그 결과, 모델들은 폐색 및 비폐색 패턴 모두에서 개수 세기에 어려움을 겪는 것으로 나타났습니다. 특히, 폐색이 있을 때 성능이 더 저하되어, VLM이 보이지 않는 공간적 관계를 추론하는 데 부족함이 있음을 시사합니다. 심지어 GPT-4o와 같은 최고 성능의 VLM조차도 폐색된 상황에서 개수 세기에 실패했습니다. 반면, 사람은 CAPTURe에서 매우 적은 오류율을 보였습니다.

또한, 폐색된 물체 위치에 대한 추가 정보를 제공하면 성능이 향상되는 것으로 나타났는데, 이는 모델의 오류가 폐색 처리 능력 부족과 이미지 개수 세기의 어려움 모두에서 비롯됨을 보여줍니다. 이 연구는 VLM의 공간 추론 능력 향상을 위한 중요한 시사점을 제공합니다. 앞으로 더욱 발전된 VLM이 개발되어 폐색된 환경에서도 정확한 추론이 가능하게 될 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting

Published:  (Updated: )

Author: Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal

http://arxiv.org/abs/2504.15485v1