의료영상 분석 혁명: 멀티모달 LLM 기반 질병 분류의 새로운 지평


Zhan 등 (2025)의 연구는 Retrieval-Augmented In-Context Learning (RAICL) 프레임워크를 통해 멀티모달 LLM의 질병 분류 성능을 향상시켰습니다. 다양한 임베딩 모델과 유사도 측정 방법을 활용하여 실험 결과, RAICL은 기존 방법 대비 정확도를 크게 높였으며, 멀티모달 입력의 효과와 RAICL의 확장성을 확인했습니다.

related iamge

최근 몇 년 동안 인공지능(AI) 분야의 눈부신 발전은 의료 영상 분석 분야에도 혁신적인 변화를 가져오고 있습니다. 특히, 멀티모달 대규모 언어 모델(MLLM)은 의료 영상과 텍스트 데이터를 통합하여 질병을 보다 정확하게 진단하는 데 활용될 가능성을 보여주고 있습니다. 하지만 기존의 MLLM 기반 질병 분류는 문맥 내 학습(In-context Learning, ICL)의 한계로 인해 성능 향상에 어려움을 겪어왔습니다.

Zhan 등 (2025) 의 연구는 이러한 문제를 해결하기 위해 Retrieval-Augmented In-Context Learning (RAICL) 이라는 혁신적인 프레임워크를 제시합니다. RAICL은 문맥 내 학습과 검색 기반 생성(Retrieval-Augmented Generation, RAG) 기술을 결합하여 유사한 질병 패턴을 가진 데이터를 동적으로 검색하고, 이를 통해 MLLM의 학습 효율성을 극대화합니다.

연구팀은 ResNet, BERT, BioBERT, ClinicalBERT 등 다양한 임베딩 모델을 활용하여 의료 영상과 텍스트 데이터의 특징을 효과적으로 추출하고, 유클리드 거리 및 코사인 유사도 등 다양한 유사도 측정 기법을 통해 가장 관련성 높은 데이터를 검색합니다. 검색된 데이터는 MLLM 학습에 최적화된 대화형 프롬프트로 변환되어 사용됩니다.

TCGA와 IU Chest X-ray 데이터셋을 사용한 실험 결과는 RAICL의 놀라운 성능을 보여줍니다. RAICL은 TCGA 데이터셋에서 정확도를 0.7854에서 0.8368로, IU Chest X-ray 데이터셋에서는 0.7924에서 0.8658로 향상시켰습니다. 특히, 멀티모달 입력(의료 영상 + 텍스트)이 단일 모달 입력보다 우수한 성능을 보였으며, 텍스트 데이터만 사용하는 경우가 의료 영상만 사용하는 경우보다 성능이 더 높았습니다. 이는 각 모달리티에 담긴 정보의 풍부함에 따라 최적의 임베딩 모델이 달라질 수 있음을 시사합니다. 또한, 검색된 데이터의 개수를 늘릴수록 성능이 향상되는 것을 확인하여, RAICL의 확장성을 입증했습니다.

결론적으로, Zhan 등의 연구는 RAICL이 멀티모달 MLLM 기반 질병 분류의 정확도와 효율성을 크게 향상시키는 효과적인 방법임을 보여줍니다. 이는 향후 의료 영상 분석 분야에 혁신적인 변화를 가져올 것으로 기대되며, 더욱 정확하고 효율적인 질병 진단 시스템 개발에 기여할 것입니다. 다만, 다양한 질병 및 데이터셋에 대한 추가적인 연구가 필요하며, 임상 현장 적용을 위한 추가적인 검증 또한 중요합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Retrieval-augmented in-context learning for multimodal large language models in disease classification

Published:  (Updated: )

Author: Zaifu Zhan, Shuang Zhou, Xiaoshan Zhou, Yongkang Xiao, Jun Wang, Jiawen Deng, He Zhu, Yu Hou, Rui Zhang

http://arxiv.org/abs/2505.02087v1