胃腸병학에서의 거대 언어 모델의 자신감: 상용, 오픈소스 및 양자화 모델 분석
본 연구는 여러 거대 언어 모델(LLM)의 의료 분야(위장병학) 적용 가능성을 평가하였습니다. 최신 모델의 성능 향상에도 불구하고, 모든 모델에서 과신 경향이 나타나 의료 AI의 안전성 확보를 위한 불확실성 추정의 중요성을 강조했습니다.

믿을 수 있을까? AI 의사의 자신감, 과연 정확할까?
최근 흥미로운 연구 결과가 발표되었습니다. Nariman Naderi 박사를 비롯한 7명의 연구진은 300개의 소화기 내과 전문의 시험 스타일 질문을 사용하여 GPT, Claude, Llama, Phi, Mistral, Gemini, Gemma, Qwen 등 여러 거대 언어 모델(LLM)의 자기 보고된 응답 확실성을 평가했습니다. 결과는 놀라웠습니다. GPT-o1 preview, GPT-4o, Claude-3.5-Sonnet과 같은 최고 성능 모델은 Brier score 0.15-0.2, AUROC 0.6을 달성했지만, 모든 모델에서 일관되게 과신(overconfidence) 경향이 나타났습니다. 더욱 발전된 최신 모델들도 이러한 경향에서 자유롭지 못했습니다.
🤔 무슨 뜻일까요?
간단히 말해, AI가 자신의 답에 대해 너무 자신감을 가지고 있다는 것입니다. AI가 정확한 답을 내놓더라도, 그 답에 대한 확신 수준이 실제 정확도보다 과장될 수 있다는 점을 의미합니다. 의료 분야에서는 이러한 과신이 매우 위험할 수 있습니다. 잘못된 진단이나 치료법 제시로 이어질 수 있기 때문입니다. 이는 단순한 오류를 넘어 환자의 생명과 직결되는 심각한 문제입니다.
시간이 갈수록 AI는 더욱 정교해지고 있지만, 여전히 해결해야 할 중요한 과제가 남아있습니다. 바로 불확실성 추정(Uncertainty Quantification) 입니다. AI가 자신의 판단에 얼마나 확신을 가져야 하는지, 어떻게 불확실성을 정확히 평가해야 하는지에 대한 연구가 더욱 필요합니다. 이러한 문제 해결 없이는 의료 분야에서의 LLM의 안전한 활용은 불가능합니다.
연구진은 이 연구를 통해 의료 AI 개발에 있어서 단순히 성능 향상만을 추구할 것이 아니라, AI의 신뢰성과 안전성 확보에 더욱 집중해야 함을 강조했습니다. AI 시대, 우리는 기술의 발전과 함께 안전성 확보라는 중요한 과제를 동시에 해결해나가야 합니다. 과신하는 AI 의사에게 환자의 생명을 맡길 수 있을까요? 이 질문에 대한 답은 아직 명확하지 않습니다. 하지만 이 연구는 우리에게 중요한 질문을 던져주고 있으며, 앞으로 더욱 심도 있는 연구가 필요함을 시사합니다.
Keywords: 거대 언어 모델, 신뢰도 측정, 인공지능, 위장병학, 불확실성 정량화
Reference
[arxiv] Self-Reported Confidence of Large Language Models in Gastroenterology: Analysis of Commercial, Open-Source, and Quantized Models
Published: (Updated: )
Author: Nariman Naderi, Seyed Amir Ahmad Safavi-Naini, Thomas Savage, Zahra Atf, Peter Lewis, Girish Nadkarni, Ali Soroush
http://arxiv.org/abs/2503.18562v1