AI의 공간 인지 능력, 과연 인간 수준일까요? 새로운 벤치마크 STARE가 밝히는 놀라운 진실


새로운 벤치마크 STARE는 AI의 공간 추론 능력을 평가하여, 단순 과제에서는 우수하지만 복잡한 과제에서는 인간 수준에 크게 못 미치는 현실을 드러냈습니다. 특히 중간 시각 정보 활용의 어려움은 향후 AI 연구의 중요한 과제로 제시됩니다.

related iamge

인간의 지능에서 공간 인지는 매우 중요한 역할을 합니다. 단순히 말로만 설명하는 것이 아니라, 머릿속에서 시각적인 시뮬레이션을 통해 문제를 해결하는 능력이죠. 하지만 기존의 AI 벤치마크는 주로 언어적 추론 능력에 초점을 맞춰왔고, 비언어적이고 다단계적인 시각적 시뮬레이션의 복잡성은 간과해왔습니다.

그런 한계를 극복하기 위해 등장한 것이 바로 STARE(Spatial Transformations and Reasoning Evaluation)입니다. 워싱턴 대학교를 포함한 여러 연구기관의 연구진(Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna)은 STARE를 통해 다양한 멀티모달 대규모 언어 모델의 공간 추론 능력을 엄격하게 평가했습니다.

STARE는 4,000개가 넘는 과제로 구성되어 있으며, 기본적인 기하학적 변환(2D 및 3D), 통합 공간 추론(큐브 넷 접기 및 탱그램 퍼즐), 그리고 실제 공간 추론(원근법 및 시간적 추론) 등 다양한 수준의 과제들을 포함하고 있습니다. 이는 물체 조립, 기계 도면 해석, 일상적인 공간 탐색 등 실제 인지 과제를 반영한 것입니다.

연구 결과는 매우 흥미롭습니다. 모델들은 단순한 2D 변환에 대해서는 뛰어난 성능을 보였지만, 3D 큐브 넷 접기나 탱그램 퍼즐과 같이 다단계 시각적 시뮬레이션을 필요로 하는 복잡한 과제에서는 거의 무작위 수준의 성능을 보였습니다. 반면 인간은 복잡한 과제에서도 거의 완벽한 정확도를 달성했지만, 상당한 시간(최대 28.9초)이 소요되었습니다. 흥미롭게도 인간은 중간 시각적 시뮬레이션을 통해 평균 7.5초의 시간을 단축하는 효과를 보였습니다.

하지만 모델들은 시각적 시뮬레이션으로부터 일관된 성능 향상을 보이지 않았습니다. 대부분의 과제에서는 성능이 향상되었지만, 탱그램 퍼즐(GPT-4)이나 큐브 넷 접기(Claude-3.5, Gemini-2.0 Flash)와 같이 특정 과제에서는 오히려 성능이 저하되는 경우도 있었습니다. 이는 모델들이 중간 시각 정보를 효과적으로 활용하는 방법을 모른다는 것을 시사합니다.

결론적으로, STARE는 AI의 공간 인지 능력에 대한 새로운 시각을 제시했습니다. 단순한 과제에서의 뛰어난 성능에도 불구하고, 복잡한 시각적 추론 과제에서는 아직 인간 수준에 도달하지 못했으며, 중간 시각 정보 활용에 대한 추가적인 연구가 필요함을 보여주는 결과입니다. AI의 발전 방향에 대한 귀중한 통찰력을 제공하는 연구라 할 수 있습니다. 앞으로 더욱 발전된 AI 모델이 등장하여 인간 수준의 공간 인지 능력을 갖추게 될지, 기대와 함께 지켜볼 필요가 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations

Published:  (Updated: )

Author: Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna

http://arxiv.org/abs/2506.04633v1