의료 LLM, 시험 성적은 A+인데 현실은 C? 인간과의 상호작용이라는 숙제


의료 분야 LLM의 실제 적용 가능성에 대한 연구 결과가 발표되었습니다. LLM은 시험에서는 높은 점수를 기록했지만, 실제 인간과의 상호작용에서는 성능이 저조했습니다. 따라서, 실제 사용자 테스트를 통한 상호작용 능력 평가의 중요성이 강조되었습니다.

related iamge

최근 전 세계 의료계는 대규모 언어 모델(LLM)을 활용하여 대중에게 의료 상담을 제공하는 방안을 모색하고 있습니다. 놀랍게도, 일부 LLM은 의료 면허 시험에서 거의 만점에 가까운 점수를 기록했습니다. 하지만 이러한 뛰어난 성적이 실제 의료 현장에서의 정확한 성능으로 이어질까요? 최근 Andrew M. Bean 등 연구진의 연구는 이에 대한 의문을 제기합니다.

연구진은 1,298명의 참가자를 대상으로, LLM(GPT-4o, Llama 3, Command R+)의 도움을 받거나 스스로 정보를 찾는(대조군) 두 가지 방식으로 10가지 의료 시나리오를 해결하는 실험을 진행했습니다. 흥미로운 점은, LLM은 시나리오를 독자적으로 수행했을 때 질병을 정확하게 식별하는 비율이 94.9%, 처치 방안을 제시하는 비율이 평균 56.3%에 달했습니다. 하지만 참가자들이 LLM을 사용했을 때는 질병 식별 성공률이 34.5% 미만, 처치 방안 제시 성공률이 44.2% 미만으로 떨어졌습니다. 이는 대조군과 차이가 없었습니다.

연구 결과는 LLM의 의료 상담 활용에 있어서 인간 사용자와의 상호작용이라는 난관을 보여줍니다. 기존의 의학 지식 평가 방식이나 시뮬레이션 환경에서는 나타나지 않았던 문제가 실제 인간 참여자와의 상호 작용에서 드러난 것입니다. 즉, LLM이 의학 지식을 완벽하게 갖추고 있더라도, 이를 인간에게 효과적으로 전달하고 소통하는 능력은 별개의 문제라는 것을 의미합니다.

연구진은 이러한 문제를 해결하기 위해, 의료 분야에서 LLM을 공개적으로 배포하기 전에 체계적인 사용자 테스트를 통해 상호 작용 능력을 평가해야 한다고 강조합니다. 단순한 시험 점수가 아닌, 실제 환자와의 상호 작용을 고려한 평가가 LLM의 안전하고 효과적인 활용을 위해 필수적이라는 결론입니다. 앞으로 LLM의 의료 분야 적용은 기술적 발전뿐 아니라, 인간 중심의 접근 방식을 통한 사용자 경험 개선에도 초점을 맞춰야 할 것입니다.

핵심 내용 요약: LLM은 의료 면허 시험에서는 높은 점수를 기록하지만, 실제 환자와의 상호작용에서는 예상치 못한 어려움을 보였습니다. 이를 통해, 실제 사용자 테스트를 통한 상호작용 능력 평가의 중요성이 부각되었습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Clinical knowledge in LLMs does not translate to human interactions

Published:  (Updated: )

Author: Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi

http://arxiv.org/abs/2504.18919v1