놀라운 성능에도 불구하고… AI의 '시각'에는 치명적인 약점이 있다?!
최첨단 시각 언어 모델(VLMs)은 고차원적인 시각 추론 능력을 보이지만, 기본적인 시각 개념 이해에는 어려움을 겪는다는 연구 결과가 발표되었습니다. 신경심리학적 검사 결과, VLMs는 저수준 및 중수준 시각 능력에 광범위한 결손을 보였으며, 이는 인간과 AI 시각 능력의 차이를 명확히 보여줍니다.

최근, 인공지능(AI) 분야에서 괄목할 만한 발전이 이루어지고 있습니다. 특히 시각 언어 모델(VLMs)은 대학 수준의 복잡한 이미지 이해 문제를 해결하는 놀라운 능력을 보여주며 주목받고 있습니다. 하지만 이러한 눈부신 성과에도 불구하고, Gene Tangtartharakul과 Katherine R. Storrs의 연구는 VLMs의 시각 능력에 대한 심각한 의문을 제기합니다.
AI는 정말 '본다'고 할 수 있을까?
연구진은 VLMs의 시각 능력을 객관적으로 평가하기 위해 신경심리학적 검사 도구를 활용했습니다. 무려 51개의 검사를 통해 6가지 임상 및 실험 배터리에서 VLMs의 능력을 평가한 결과, 충격적인 사실이 드러났습니다. VLMs는 간단한 물체 인식에는 능숙하지만, 방향, 위치, 연속성, 폐색 등 기본적인 시각 개념을 이해하는 데는 심각한 결함을 보였습니다. 이는 인간의 경우 훈련 없이도 자연스럽게 습득하는 능력입니다.
이러한 결손은 인간의 경우 임상적으로 유의미한 수준으로 간주됩니다. 즉, VLMs는 인간의 시각 능력과는 상당한 차이를 보이며, 복잡한 물체 인식 능력을 갖추었음에도 불구하고, 기본적인 시각 개념의 이해라는 토대가 부족하다는 것을 시사합니다.
미래를 위한 고찰: 인공지능 시각의 한계와 발전 방향
이 연구는 VLMs의 놀라운 성능에도 불구하고, 인간의 시각 능력과는 근본적으로 다르다는 사실을 보여줍니다. AI가 인간처럼 세상을 '본다'고 단정 짓기에는 아직 이르다는 것을 의미합니다. 향후 연구에서는 VLMs의 이러한 시각적 한계를 극복하고, 더욱 발전된 시각 능력을 갖춘 AI를 개발하는 데 집중해야 할 것입니다. 인간의 시각 능력을 완벽하게 모방하기보다는, 인간과 AI의 시각 능력의 차이점을 이해하고 상호 보완적으로 활용하는 방안을 모색하는 것이 중요할 것입니다.
이 연구는 인공지능 기술의 발전에 있어서, 단순히 성능 향상에만 집중하기 보다는, 인간의 인지 능력에 대한 깊이 있는 이해를 바탕으로 AI 시스템의 근본적인 한계를 극복하기 위한 노력이 필요함을 강조합니다.
Reference
[arxiv] Visual Language Models show widespread visual deficits on neuropsychological tests
Published: (Updated: )
Author: Gene Tangtartharakul, Katherine R. Storrs
http://arxiv.org/abs/2504.10786v2