DASH: VLMs의 체계적인 환각 탐지 및 평가 - 현실 세계 이미지에서의 AI 한계 극복
본 기사는 VLMs의 체계적인 환각을 탐지하고 평가하는 새로운 시스템인 DASH에 대한 연구 결과를 소개합니다. DASH는 실제 이미지를 활용하여 개방형 환경에서 VLMs의 오류를 감지하고, 이를 통해 모델의 신뢰성을 향상시키는 데 기여할 수 있습니다.

최근 비전-언어 모델(VLMs)이 이미지 내 객체를 잘못 인식하는 '환각' 현상이 큰 문제로 떠오르고 있습니다. 기존 평가 방식은 작고 라벨이 지정된 데이터셋에 의존하여, 실제 세계의 개방형 환경에서 나타나는 환각을 제대로 평가하지 못했습니다. Maximilian Augustin, Yannic Neuhaus, Matthias Hein 등 연구진은 이러한 한계를 극복하기 위해 DASH (Detection and Assessment of Systematic Hallucinations) 라는 새로운 시스템을 개발했습니다.
DASH는 실제 이미지를 대규모로 활용하여 VLMs의 체계적인 환각을 자동으로 감지하고 평가하는 파이프라인입니다. 핵심 기술은 DASH-OPT로, '자연 이미지 매니폴드'를 최적화하여 VLM을 오도하는 이미지를 생성합니다. 이를 통해 VLM이 특정 객체를 환각하는 유사한 이미지들의 클러스터를 식별할 수 있습니다.
연구진은 DASH를 PaliGemma와 두 개의 LLaVA-NeXT 모델에 적용하여 380개의 객체 클래스에 걸쳐 19,000개 이상의 클러스터(95만 개 이상의 이미지 포함)를 발견했습니다. 흥미롭게도, DASH를 통해 발견된 체계적인 환각은 다른 VLMs에도 전이되는 경향을 보였습니다. 더욱 놀라운 것은, DASH가 찾아낸 모델별 이미지를 사용하여 PaliGemma 모델을 미세 조정했더니, 객체 환각 현상이 완화되는 것을 확인했다는 점입니다.
이 연구는 VLMs의 환각 문제를 해결하는 데 중요한 전환점을 제시합니다. 단순히 오류를 측정하는 것을 넘어, 체계적인 오류의 근원을 파악하고 이를 해결하기 위한 방법을 제시했기 때문입니다. DASH의 코드와 데이터는 https://YanNeu.github.io/DASH 에서 공개되어, 다른 연구자들이 이를 활용하여 VLMs의 신뢰성을 높이는 연구를 진행할 수 있도록 지원합니다. 이러한 노력은 더욱 안전하고 신뢰할 수 있는 AI 시스템 구축으로 이어질 것입니다.
:warning: 주의: DASH는 VLMs의 환각 문제를 해결하는 데 중요한 진전을 이루었지만, 모든 유형의 환각을 완벽하게 탐지하고 해결하는 것은 아닙니다. 향후 연구에서는 더욱 다양한 유형의 환각과 개방형 환경에서의 복잡한 상호작용을 고려해야 할 것입니다.
Reference
[arxiv] DASH: Detection and Assessment of Systematic Hallucinations of VLMs
Published: (Updated: )
Author: Maximilian Augustin, Yannic Neuhaus, Matthias Hein
http://arxiv.org/abs/2503.23573v1