NegVQA: AI가 부정을 이해할 수 있을까요? 🤔
NegVQA 벤치마크는 VLM의 부정 이해 능력을 평가하기 위해 LLM을 활용하여 구축되었으며, 평가 결과 VLM의 부정 이해 능력에 대한 중요한 한계를 드러냈습니다. 모델 크기 증가와 성능 간의 U자형 관계는 향후 VLM 개발에 중요한 시사점을 제공합니다.

NegVQA: AI의 부정 이해 능력, 과연 어디까지일까요?
최근 급속도로 발전하는 비전 언어 모델(VLM)은 자율주행, 의료 진단 등 고위험도 응용 분야에서 활용되고 있습니다. 하지만 이러한 모델들이 부정이라는 기본적인 언어 현상을 얼마나 잘 이해하는지는 여전히 미지수였습니다. 장유휘, 수유창, 유이밍, 세레나 영-레비 연구진은 이러한 의문에 답하고자 NegVQA라는 새로운 벤치마크를 제시했습니다.
NegVQA는 다양한 부정 표현과 이미지-질문 분포를 포함하는 7,379개의 2지선다형 질문으로 구성되어 있습니다. 흥미로운 점은, 연구진이 대규모 언어 모델(LLM) 을 활용하여 기존 VQA 데이터셋의 질문을 부정형으로 변환했다는 것입니다. 이는 기존 데이터셋을 효율적으로 활용하면서도, 부정 표현을 다양하게 다루는 벤치마크를 구축할 수 있도록 하는 혁신적인 접근 방식입니다.
20개의 최첨단 VLM을 7개의 모델 계열에 걸쳐 평가한 결과, 놀랍게도 이들 모델은 부정 표현에 상당한 어려움을 겪는 것으로 나타났습니다. 원래 질문에 대한 응답과 비교하여 성능이 크게 저하되었다는 것입니다. 더욱 주목할 만한 것은, 모델 크기가 증가함에 따라 NegVQA 성능이 U자형 곡선을 그린다는 사실입니다. 즉, 모델 크기가 일정 수준까지 증가하면 성능이 오히려 저하되다가, 그 이후에 다시 향상되는 현상이 나타났습니다. 이는 모델의 복잡성 증가가 부정 이해 능력 향상에 직결되지 않음을 시사하는 중요한 발견입니다.
NegVQA 벤치마크는 VLM의 부정 이해 능력에 대한 중요한 한계를 드러내는 동시에, 향후 VLM 개발 방향에 대한 귀중한 통찰력을 제공합니다. 이 연구는 단순한 성능 평가를 넘어, VLM의 기본적인 언어 이해 능력에 대한 심층적인 분석을 제시함으로써 AI 발전에 기여할 것으로 기대됩니다. 자세한 내용은 프로젝트 페이지 (https://yuhui-zh15.github.io/NegVQA/)에서 확인할 수 있습니다.
Reference
[arxiv] NegVQA: Can Vision Language Models Understand Negation?
Published: (Updated: )
Author: Yuhui Zhang, Yuchang Su, Yiming Liu, Serena Yeung-Levy
http://arxiv.org/abs/2505.22946v1