시각화 질의응답에서 다중 모달 LLM의 진정한 '이해' 능력을 측정하는 방법
본 기사는 다중 모달 대규모 언어 모델(MLLM)의 시각화 질문 답변 능력 평가의 한계를 지적하고, 시각적 처리와 사전 지식 활용의 영향을 구분하는 새로운 검증 프레임워크를 제안하는 연구를 소개합니다. MLLM이 시각 정보를 실제로 '이해'하는지, 아니면 단순히 기존 지식을 활용하는지 정확히 평가하는 것이 AI 시스템의 신뢰성 향상에 필수적임을 강조합니다.

시각과 기억: 시각화 질문 답변에서 다중 모달 LLM의 역할 재검토
최근 다중 모달 대규모 언어 모델(MLLM)의 발전으로, 언어 모델은 시각 및 언어 정보를 통합하여 추론할 수 있게 되었습니다. 이를 통해 MLLM은 다양한 디자인과 과제에 걸쳐 데이터 시각화에 대한 질문을 이해하고 답변할 수 있습니다. 그러나 Li 등(2025)의 연구는 MLLM의 시각화 추론 능력 평가에 대한 중요한 문제점을 제기합니다.
연구진은 시각화 질문 답변(VisQA) 과제에서 MLLM이 시각 정보를 처리하고 추론하는 방식이 인간과 근본적으로 다를 수 있음을 발견했습니다. 놀랍게도, 시각 자료 없이도 모델은 상당수의 시각화 질문에 정답을 맞혔습니다. 선택지 유무와 관계없이 이러한 현상이 나타났습니다. 이는 MLLM에 저장된 방대한 지식이 시각적 신호를 참고할 필요 없이 사실적 회상을 통해 질문에 답할 수 있음을 시사합니다.
이러한 결과는 기존 VisQA 평가 방식이 모델의 시각화 추론 능력을 완전히 포착하지 못할 수 있음을 시사합니다. 단순히 정답률만으로는 모델이 실제로 시각 정보를 '이해'했는지, 아니면 단순히 기존 지식을 '떠올렸는지' 구분하기 어렵다는 것입니다.
이에 연구진은 규칙 기반 의사결정 트리와 검증 표를 통합한 포괄적인 검증 프레임워크를 제안합니다. 이 프레임워크는 '보는 것'(시각적 처리)과 '기억하는 것'(사전 지식 활용)의 영향을 분리하여 VisQA 데이터셋의 유효성을 검증하고, 모델이 실제로 '보고' 있는지, 사실적 회상의 영향을 받는지, 또는 귀납적 편향에 의존하는지 파악하는 데 도움을 줍니다.
본 연구는 MLLM을 활용하는 미래의 시각화 이해 연구 설계 시 신중한 고려가 필요함을 강조합니다. 단순히 정답률에만 의존하는 평가 방식에서 벗어나, 모델의 시각적 추론 능력을 보다 정확하게 측정하는 새로운 평가 방법론 개발이 시급한 과제입니다. 이는 AI 시스템의 투명성과 신뢰성을 높이는 데 중요한 의미를 가집니다.
Reference
[arxiv] See or Recall: A Sanity Check for the Role of Vision in Solving Visualization Question Answer Tasks with Multimodal LLMs
Published: (Updated: )
Author: Zhimin Li, Haichao Miao, Xinyuan Yan, Valerio Pascucci, Matthew Berger, Shusen Liu
http://arxiv.org/abs/2504.09809v1