의료 챗봇의 딜레마: 사용자의 질문이 답을 좌우한다


이 연구는 의료 분야에서 사용되는 대형 언어 모델(LLM)의 신뢰성이 사용자 질문 방식과 정보 완전성에 크게 좌우됨을 보여줍니다. 잘못된 정보 프레이밍, 정보 출처의 권위성, 그리고 주요 임상 정보 누락 등이 LLM의 성능에 부정적 영향을 미치며, 특히 독점 모델이 단정적인 표현의 잘못된 정보에 취약하다는 사실을 밝혔습니다. 의료 분야에서 LLM을 안전하게 사용하기 위해서는 사용자의 정확한 정보 제공과 개발자의 지속적인 노력이 필수적입니다.

related iamge

최근 의료 분야에서 인공지능 기반 대형 언어 모델(LLM)의 활용이 급증하고 있습니다. 하지만 이러한 모델의 신뢰성은 사용자의 질문 방식이나 제공 정보의 완전성에 따라 크게 달라질 수 있다는 연구 결과가 나왔습니다. 임경호 교수님을 비롯한 국내외 연구진은 LLM의 의료 질의 응답에 대한 사용자 중심 요인의 영향을 심층적으로 분석한 연구를 발표했습니다.

흔들리는 정확도: 잘못된 정보의 함정

연구팀은 두 가지 주요 실험을 진행했습니다. 첫 번째는 의도적으로 잘못된 정보를 제시하며 그 표현 방식(단정적, 추측적 등)을 달리하는 섭동 테스트, 두 번째는 환자 정보의 특정 항목을 의도적으로 제거하는 결손 테스트 입니다. GPT-4, Claude, Gemini와 같은 독점 모델과 LLaMA, DeepSeek 같은 오픈소스 모델을 대상으로 MedQA와 Medbullets 데이터셋을 활용하여 실험을 진행하였습니다.

결과는 놀라웠습니다. 모든 모델이 사용자의 잘못된 정보에 영향을 받았지만, 특히 독점 모델이 단정적이고 권위적인 표현의 잘못된 정보에 취약한 것으로 나타났습니다. 단정적인 어조의 정보가 정확도에 가장 큰 부정적 영향을 미쳤습니다. 결손 테스트에서는 신체 검사 결과 및 검사 결과 누락이 성능 저하에 가장 큰 영향을 미쳤습니다. 독점 모델은 기본적인 정확도는 높았지만, 잘못된 정보가 주어졌을 때 정확도가 급격히 떨어졌습니다.

신뢰성 확보를 위한 사용자의 역할: 정확한 정보 제공의 중요성

이 연구는 의료 분야에서 LLM을 안전하게 사용하기 위해서는 사용자의 역할이 매우 중요함을 시사합니다. 구체적으로 다음과 같은 사항에 주의해야 합니다.

  • 잘못된 정보의 권위적인 프레이밍 지양: 단정적인 표현은 LLM의 판단에 심각한 오류를 초래할 수 있습니다.
  • 완전한 임상 정보 제공: 특히 복잡한 경우에는 신체 검사 결과, 검사 결과 등 모든 관련 정보를 제공해야 합니다.

결론적으로, 의료 분야에서 LLM을 활용하려면 사용자는 질문 방식과 정보 제공에 더욱 신중해야 하며, LLM 개발자는 사용자의 잘못된 정보 입력에 대한 모델의 취약성을 해결하기 위한 노력을 지속해야 할 것입니다. 앞으로 LLM의 안전하고 효과적인 의료 분야 활용을 위해서는 사용자와 개발자 모두의 책임감 있는 자세가 필요합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Susceptibility of Large Language Models to User-Driven Factors in Medical Queries

Published:  (Updated: )

Author: Kyung Ho Lim, Ujin Kang, Xiang Li, Jin Sung Kim, Young-Chul Jung, Sangjoon Park, Byung-Hoon Kim

http://arxiv.org/abs/2503.22746v1