놀라운 발견! AI의 '환각' 문제, 간단한 프롬프트로 해결 가능할까요?


대규모 비전 언어 모델(VLMs)의 불확실한 입력에 대한 강건성을 평가한 연구 결과, '예측 거부' 프롬프트를 통해 ImageNet과 같은 자연 이미지에서 강건성을 크게 향상시킬 수 있지만, 도메인 특화 작업에서는 전문 지식 부족으로 어려움을 겪는다는 사실을 발견했습니다. 캡션 다양성 기반의 새로운 불확실성 측정 메커니즘도 제시되었습니다.

related iamge

AI의 눈과 말, 불확실성에 얼마나 강할까요?

최근 발표된 논문 "Are vision language models robust to uncertain inputs?" 에서는 인공지능의 핵심적인 약점 중 하나인 불확실한 입력에 대한 취약성에 대해 심층적으로 파고듭니다. Wang과 Nalisnick이 이끄는 연구팀은 GPT-4o와 같은 대규모 비전 언어 모델(VLMs)을 대상으로, 이상 감지 및 모호한 상황에서의 분류 등의 실험을 통해 모델의 강건성을 평가했습니다.

거대 모델, 여전히 '환각'에 시달리다

연구 결과, 모델의 크기와 훈련 데이터셋의 증가가 강건성 향상에 기여하는 것은 사실이지만, VLMs는 여전히 '환각(hallucination)' 문제에 시달리는 것으로 나타났습니다. 즉, 불확실하거나 이상적인 입력에도 불구하고 자신감 있는 답변을 내놓는 경향이 있다는 것입니다. 마치, 증거가 부족해도 확신에 찬 주장을 펼치는 것과 같습니다.

간단한 해결책? '예측 거부' 프롬프트의 힘

하지만 놀랍게도, ImageNet과 같은 자연 이미지의 경우에는 이러한 문제를 간단하게 해결할 수 있는 방법이 발견되었습니다. 바로 '모델에게 불확실한 예측을 거부하도록 프롬프트를 주는 것' 입니다. 이 간단한 방법을 통해 여러 설정에서 거의 완벽에 가까운 강건성을 달성할 수 있었습니다. 마치, AI에게 '모르는 건 모른다고 말하도록' 가르친 것과 같습니다. 이는 모델의 신뢰성을 크게 향상시키는 획기적인 결과입니다.

도메인 특화의 벽: 전문 지식의 중요성

하지만 모든 상황에 이 방법이 적용되는 것은 아닙니다. 은하 형태 분류와 같은 도메인 특화 작업에서는 전문 지식 부족으로 인해 신뢰할 수 있는 불확실성 추정이 어려워, '예측 거부' 프롬프트의 효과가 제한적입니다. 이는 AI 모델이 특정 분야의 전문 지식을 갖추는 것이 얼마나 중요한지를 보여주는 부분입니다.

미래를 위한 제안: 캡션 다양성을 활용한 불확실성 측정

연구팀은 또한 모델의 내부 불확실성을 드러내는 새로운 메커니즘을 제안했습니다. 이 메커니즘은 캡션 다양성을 기반으로 하며, 라벨링된 데이터에 의존하지 않고도 모델이 성공적으로 예측을 거부할 수 있는 시점을 예측할 수 있도록 합니다. 이는 AI 모델의 불확실성을 더 정확하게 이해하고 관리하는 데 중요한 발전입니다.

이 연구는 AI 모델의 강건성 향상을 위한 새로운 가능성을 제시하며, 특히 간단한 프롬프트 조정을 통해 놀라운 성과를 얻을 수 있음을 보여줍니다. 하지만 도메인 특화 작업의 어려움은 여전히 과제로 남아있으며, 앞으로 더 많은 연구가 필요할 것입니다. AI의 발전은 계속되고 있으며, 이러한 연구를 통해 더욱 안전하고 신뢰할 수 있는 AI 시스템 구축에 한 걸음 더 다가갈 수 있을 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Are vision language models robust to uncertain inputs?

Published:  (Updated: )

Author: Xi Wang, Eric Nalisnick

http://arxiv.org/abs/2505.11804v1