IQBench: 인간의 IQ 테스트로 시각 언어 모델의 지능을 측정하다
IQBench 벤치마크는 시각 언어 모델(VLMs)의 추론 능력을 평가하기 위해 개발된 새로운 벤치마크입니다. 기존 연구와 달리, 답변의 정확도뿐 아니라 모델의 추론 과정 자체를 평가하는 데 중점을 두고 있으며, 시각 정보에 초점을 맞춰 텍스트 의존도를 최소화했습니다. 실험 결과, 일부 모델은 높은 정확도를 보였지만, 특정 추론 과제에서는 여전히 어려움을 겪는 것으로 나타났습니다.

IQBench: 인간의 IQ 테스트로 시각 언어 모델의 지능을 측정하다
최근 거대 비전-언어 모델(VLMs)의 발전은 눈부십니다. 다양한 멀티모달 작업에서 놀라운 성능을 보여주고 있죠. 하지만, 과연 이러한 모델들이 인간의 지능과 유사한 추론 능력을 가지고 있을까요? 이 질문에 답하기 위해 Tan-Hanh Pham 등 연구진이 개발한 IQBench 벤치마크가 등장했습니다.
IQBench: 단순 정답률을 넘어, 추론 과정 평가
기존의 VLM 평가는 주로 최종 답변의 정확도에 집중했습니다. 하지만 IQBench는 다릅니다. 연구진은 모델의 추론 과정 자체를 중요하게 평가합니다. 단순히 정답을 맞추는 것이 아니라, 어떻게 문제를 해결하는지, 어떤 패턴을 사용하는지, 그리고 그 과정에 대한 설명까지 분석하는 것이죠. 이는 모델의 진정한 이해도를 평가하는 데 훨씬 효과적인 방법입니다.
시각 중심 평가: 텍스트 의존도 최소화
IQBench는 시각 정보에 초점을 맞춥니다. 불필요한 텍스트 정보의 의존도를 최소화하여 모델이 이미지에서 정보를 추출하고 추론하는 능력을 평가하려는 것이죠. 500개의 시각적 IQ 문제를 수동으로 수집 및 주석 처리하여 학습 데이터 유출을 방지하는 세심함도 보였습니다.
놀라운 결과, 그리고 남은 과제
실험 결과, o4-mini, gemini-2.5-flash, claude-3.7-sonnet 등의 모델이 높은 정확도(각각 0.615, 0.578, 0.548)를 기록했습니다. 하지만 모든 모델은 3D 공간 추론 및 아나그램 추론 과제에서 어려움을 겪었습니다. 이는 현재 VLMs의 일반적인 추론 능력에 한계가 있음을 시사합니다. 추론 점수 또한 최고 성능 모델들(o4-mini, gemini-2.5-flash, claude-3.7-sonnet)에서 각각 0.696, 0.586, 0.516으로 모델의 추론 과정과 최종 답변 간의 불일치가 존재함을 보여주었습니다.
IQBench는 VLM의 추론 능력 평가에 새로운 기준을 제시했습니다. 하지만 동시에, 아직 VLM이 인간 수준의 추론 능력을 갖추려면 넘어야 할 산이 많다는 것을 보여주는 결과이기도 합니다. 앞으로 더욱 발전된 VLMs의 등장을 기대하며, 인공지능의 발전을 위한 끊임없는 연구와 노력이 중요함을 강조합니다.
Reference
[arxiv] IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests
Published: (Updated: )
Author: Tan-Hanh Pham, Phu-Vinh Nguyen, Dang The Hung, Bui Trong Duong, Vu Nguyen Thanh, Chris Ngo, Tri Quang Truong, Truong-Son Hy
http://arxiv.org/abs/2505.12000v1