레고 퍼즐로 본 AI의 공간 추론 능력: 놀라운 한계와 미래 과제


새로운 벤치마크 LEGO-Puzzles를 통해 평가한 결과, 최신 MLLM의 공간 추론 능력은 인간 수준에 크게 미치지 못하는 것으로 나타났습니다. 이 연구는 MLLM의 한계를 보여주고, 향후 공간 추론 분야의 발전 방향을 제시합니다.

related iamge

최근 탕 켕시안(Kexian Tang) 등 연구진이 발표한 논문 “LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?”은 인공지능의 공간 추론 능력에 대한 흥미로운 결과를 제시합니다. 연구진은 다단계 공간 추론 능력을 평가하기 위한 새로운 벤치마크인 LEGO-Puzzles을 개발했습니다. 로봇 조작, 자율 주행, 자동 조립 등 복잡한 실제 응용 분야에서 필수적인 이 능력은, 놀랍게도 최첨단 다중 모드 대규모 언어 모델(MLLM)들에게는 여전히 큰 과제인 것으로 나타났습니다.

LEGO-Puzzles는 11가지의 다양한 레고 조립 과제로 구성되어 있으며, 각 과제는 기본적인 공간 이해부터 복잡한 다단계 추론까지 다양한 수준의 어려움을 갖습니다. 총 1100개의 시각적 질의응답(VQA) 샘플을 통해 MLLM의 능력을 종합적으로 평가합니다. 결과는 충격적입니다. 가장 강력한 MLLM조차도 문제의 약 절반만 정답을 맞춘 반면, 인간 참가자는 90% 이상의 정확도를 기록했습니다. 이는 MLLM의 공간 추론 능력이 아직 인간 수준에 크게 미치지 못함을 보여줍니다.

더 나아가, 연구진은 MLLM의 레고 조립 설명서를 보고 이미지를 생성하는 능력도 평가했습니다. 흥미롭게도 Gemini-2.0-Flash와 GPT-4o만이 제한적으로나마 설명서를 따른 이미지 생성에 성공했습니다. 다른 MLLM들은 입력 이미지를 단순히 복제하거나 완전히 무관한 이미지를 생성하는 등, 공간적 이해와 순차적 추론 능력의 부족을 여실히 드러냈습니다.

이 연구는 MLLM의 공간 이해 및 순차적 추론 능력에 대한 중요한 결함을 보여주며, 향후 다중 모드 공간 추론 분야의 발전을 위한 중요한 이정표가 될 것입니다. 레고 블록이라는 친숙한 소재를 통해 드러난 AI의 한계는, 앞으로 AI 기술 발전의 방향을 제시하는 중요한 통찰을 제공합니다. 단순히 정보를 처리하는 것을 넘어, 세상을 이해하고 상호작용하는 능력을 갖춘 진정한 인공지능 개발을 위해서는 공간 추론 능력의 향상이 필수적임을 시사합니다. 앞으로 AI 연구자들의 꾸준한 노력과 혁신을 통해, 레고 블록을 능숙하게 조립하는 AI를 만날 날이 기대됩니다! 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?

Published:  (Updated: )

Author: Kexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen

http://arxiv.org/abs/2503.19990v1