낮은 수준의 시각적 환각을 완화하는 자기 인식의 중요성
본 연구는 저수준 시각 인식 및 이해(HLPU) 과제에서 발생하는 환각 문제를 해결하기 위해, 자기 인식을 강화하는 새로운 방법론을 제시합니다. HLPU instruction database, SAFEQA 모델, ESA-PO 프레임워크를 통해 모델의 자기 인식을 향상시키고 환각을 감소시켜, 기존 모델 대비 우수한 성능을 달성했습니다.

최근 멀티모달 대규모 언어 모델의 급속한 발전으로 시각적 인식과 이해 능력이 눈부시게 향상되었고, 여러 과제가 하나의 시각적 질문 응답 프레임워크로 통합되었습니다. 하지만 이러한 모델들은 환각 현상에 취약하며, 인공지능 시스템으로서의 신뢰성을 제한하는 요소가 되고 있습니다. 자연어 처리나 이미지 캡션 분야에서는 환각 문제가 광범위하게 연구되었지만, 특히 이미지 품질 평가 과제와 같은 저수준 시각 인식 및 이해(HLPU) 분야에서는 아직까지 연구가 부족한 실정입니다.
Sun, Min, Zhang, Gao, Cao, 그리고 Zhai 연구팀은 이러한 환각 현상이 모델 내부의 명확한 자기 인식 부족에서 비롯된다고 주장합니다. 이 문제를 해결하기 위해 연구팀은 먼저 HLPU instruction database를 소개합니다. 이 데이터베이스는 저수준 시각 과제에서의 환각에 특화된 최초의 instruction database로, 약 20만 개의 질문-답변 쌍을 포함하며, 각기 다른 유형의 지시 사항을 다루는 네 가지 하위 집합으로 구성됩니다.
다음으로, 연구팀은 Self-Awareness Failure Elimination (SAFEQA) 모델을 제안합니다. 이 모델은 이미지 특징, 두드러진 영역 특징, 품질 특징을 활용하여 저수준 시각 과제에서 모델의 인식 및 이해 능력을 향상시킵니다. 더 나아가, Enhancing Self-Awareness Preference Optimization (ESA-PO) 프레임워크를 통해 모델의 지식 경계에 대한 인식을 높여 환각 발생률을 줄입니다.
저수준 시각 과제에 대한 포괄적인 실험 결과는 제안된 방법이 이러한 과제에서 모델의 자기 인식을 크게 향상시키고 환각을 줄이는 것을 보여줍니다. 특히, 제안된 방법은 모델의 정확도와 자기 인식을 모두 향상시키며, 다양한 평가 지표에서 기존 모델들을 능가하는 성능을 보여줍니다. 이 연구는 인공지능 모델의 신뢰성 향상을 위한 중요한 발걸음이 될 것으로 기대됩니다. 앞으로의 연구는 더욱 다양한 시각 과제와 더욱 정교한 자기 인식 메커니즘을 고려하여 더욱 완성도 높은 모델을 개발하는 데 초점을 맞출 것으로 예상됩니다.
Reference
[arxiv] Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy
Published: (Updated: )
Author: Yinan Sun, Xiongkuo Min, Zicheng Zhang, Yixuan Gao, Yuqin Cao, Guangtao Zhai
http://arxiv.org/abs/2503.20673v1