AI 모델의 '불확실성'을 꿰뚫어보다: 저신뢰도 예측의 새로운 설명 방법
Sara Pohland와 Claire Tomlin의 연구는 AI 이미지 분류 모델의 저신뢰도 예측에 대한 설명 가능성을 높이는 새로운 방법을 제시합니다. 5가지 고신뢰도 반례 이미지 생성 방법과 다중모드 대규모 언어 모델(MLLM)을 활용하여 저신뢰도 예측의 원인을 시각적 및 언어적으로 설명함으로써, AI 모델의 투명성과 신뢰성을 향상시키는 데 기여합니다.

인공지능(AI) 이미지 분류 모델은 놀라운 성능을 보여주지만, 때로는 예측에 대한 확신이 낮은 경우가 있습니다. 마치 사람이 '잘 모르겠다'라고 말하는 것과 같죠. 이러한 '저신뢰도 예측'의 원인을 파악하는 것은 AI 모델의 신뢰성과 투명성을 높이는 데 매우 중요합니다. 기존 연구들은 주로 모델이 어떻게 결정을 내리는지에 초점을 맞추었지만, Sara Pohland와 Claire Tomlin은 한 걸음 더 나아가 왜 모델이 불확실한지를 설명하는 새로운 방법을 제시했습니다.
그들의 연구 "저신뢰도 모델 역량을 고역량 반례로 설명하기" 에서는, 고신뢰도 반례 이미지를 생성하여 저신뢰도 예측의 원인을 시각적으로 보여주는 5가지 혁신적인 방법을 제안합니다. 마치 마법의 렌즈를 통해 모델의 내부를 들여다보는 것과 같습니다. 이 방법들은 다음과 같습니다:
- Image Gradient Descent (IGD)
- Feature Gradient Descent (FGD)
- Autoencoder Reconstruction (Reco)
- Latent Gradient Descent (LGD)
- Latent Nearest Neighbors (LNN)
연구진은 두 가지 독립적인 데이터셋을 사용하여 이 방법들을 평가했습니다. 그 결과, Reco, LGD, LNN이 저신뢰도 예측의 원인을 가장 효과적으로 보여주는 것으로 나타났습니다. 하지만 여기서 끝나지 않습니다.
이들은 한 단계 더 나아가, 생성된 고신뢰도 반례 이미지를 다중모드 대규모 언어 모델 (MLLM) 에 활용하여 저신뢰도 예측의 원인을 자연어로 설명하는 시스템을 구축했습니다. 이는 마치 모델이 스스로 자신의 불확실성에 대해 설명하는 것과 같습니다. 실험 결과, 반례 이미지를 포함시킨 질의는 MLLM의 설명 정확도를 크게 향상시켰습니다. 이는 고신뢰도 반례 이미지가 저신뢰도 예측의 원인을 이해하는 데 매우 유용함을 보여줍니다.
이 연구는 AI 모델의 설명 가능성을 향상시키는 데 중요한 발걸음입니다. AI가 점점 더 우리 삶에 깊숙이 들어오는 시대에, 그 결정 과정을 이해하고 신뢰할 수 있도록 하는 것은 매우 중요하며, 이 연구는 그러한 방향으로 나아가는 중요한 이정표가 될 것입니다. 앞으로 이러한 기술은 의료 진단, 자율 주행 등 다양한 분야에서 AI의 신뢰도를 높이는 데 기여할 것으로 기대됩니다.
Reference
[arxiv] Explaining Low Perception Model Competency with High-Competency Counterfactuals
Published: (Updated: )
Author: Sara Pohland, Claire Tomlin
http://arxiv.org/abs/2504.05254v1