멀티모달 AI의 시각적 추론 능력: 과연 '보는' 것일까, '기억하는' 것일까?


Li 등(2025)의 연구는 다중 모달 대규모 언어 모델(MLLM)의 시각적 추론 능력 평가에 대한 새로운 관점을 제시합니다. 기존의 시각화 질문 응답(VisQA) 평가 방식의 한계를 지적하고, '보는 것'과 '기억하는 것'을 구분하는 새로운 검증 프레임워크를 제안하여 MLLM의 진정한 시각적 이해 능력을 평가하는 방향을 제시합니다.

related iamge

최근 다중 모달 대규모 언어 모델(MLLM)의 발전으로, 언어 모델은 시각과 언어를 통합적으로 이해하고 추론할 수 있게 되었습니다. 이는 다양한 디자인과 과제에 걸쳐 데이터 시각화에 대한 질문을 이해하고 답하는 것을 가능하게 합니다. 하지만 MLLM을 다양한 시각화 과제에 적용하려면 그 능력을 제대로 평가하는 것이 중요하며, 가장 일반적인 방법은 인간의 시각 자료 이해 능력(예: 시각화 읽기 능력)과 유사하게 모델의 시각화 추론 능력을 측정하는 것입니다.

Li 등(2025) 의 연구는 시각화 질문 응답(VisQA) 과제에서 MLLM이 시각 자료를 어떻게 인식하고 추론하는지가 인간의 접근 방식과 근본적으로 다를 수 있다는 점을 발견했습니다. 놀랍게도, 시각 자료 없이도 모델은 시각화 테스트 질문의 상당 부분을 정답을 맞혔습니다. 선택지가 제공되었는지 여부와 관계없이 말이죠. 연구진은 이를 MLLM에 내장된 방대한 지식이 시각적 신호를 찾을 필요성을 능가하는 사실적 기억을 가능하게 한다는 가설을 세웠습니다.

이러한 발견은 현재 VisQA 평가 방식이 모델의 시각화 추론 능력을 완전히 포착하지 못할 수 있다는 우려를 제기합니다. 이 문제를 해결하기 위해, 연구진은 규칙 기반 의사결정 트리와 검증 표를 통합한 포괄적인 검증 프레임워크를 제안했습니다. 이는 '보는 것'(시각 처리)과 '기억하는 것'(이전 지식에 의존)의 영향을 분리하여 VisQA 데이터셋의 유효성을 검증하고, 모델이 실제로 '보고' 있는지, 사실적 기억의 긍정적 또는 부정적 영향을 받는지, 또는 귀납적 편향에 의존하는지를 강조합니다.

본 연구는 MLLM을 활용할 때 미래 시각화 이해 연구 설계에서 신중한 고려가 필요함을 강조합니다. 단순히 정답률만으로 AI의 시각적 추론 능력을 평가해서는 안 된다는 경고의 메시지입니다. 앞으로는 '보는 능력'과 '기억하는 능력'을 명확히 구분하는 평가 방법의 개발이 시급한 과제로 떠오르고 있습니다. AI의 진정한 시각적 이해 능력을 평가하기 위한 새로운 패러다임 전환이 필요한 시점입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] See or Recall: A Sanity Check for the Role of Vision in Solving Visualization Question Answer Tasks with Multimodal LLMs

Published:  (Updated: )

Author: Zhimin Li, Haichao Miao, Xinyuan Yan, Valerio Pascucci, Matthew Berger, Shusen Liu

http://arxiv.org/abs/2504.09809v2