일본 의료계 혁신: 안정적인 추론 능력을 갖춘 의료 LLM 개발 성공!


일본 연구진이 개발한 의료 전문 거대언어모델 Preferred-MedLLM-Qwen-72B가 일본 의사 면허 시험 기준에서 최고 성능을 기록하며 주목받고 있습니다. 지속적 사전 훈련과 추론 선호도 최적화 기법을 통해 높은 정확도와 안정적인 추론 능력을 동시에 확보, 의료 분야 LLM의 신뢰성을 높이는 혁신적인 성과를 거두었습니다.

related iamge

일본 의료계를 뒤흔들 기술: 안정적인 추론 능력의 의료 LLM 등장!

최근, 의료 분야에서 거대 언어 모델(LLM)의 활용 가능성이 주목받고 있지만, 사실 정확성, 언어적 제약, 그리고 특히 신뢰를 위해 필수적인 추론 설명 생성의 신뢰성 문제로 인해 임상 적용에는 어려움이 있었습니다.

하지만, 카와카미 와타루, 스즈키 케이타, 이와사와 준이치로 연구팀이 이러한 문제점들을 극복하고 Preferred-MedLLM-Qwen-72B 라는 획기적인 모델을 개발하는데 성공했습니다! 720억 개의 파라미터를 가진 이 모델은 일본 의료 분야에 특화되어 높은 정확도와 안정적인 추론 능력을 동시에 제공합니다.

연구팀은 Qwen2.5-72B 기본 모델에 두 단계의 미세 조정 과정을 적용했습니다. 먼저, 지속적 사전 훈련(CPT) 을 통해 방대한 일본어 의료 데이터셋으로 모델에 깊이 있는 의학 지식을 주입했습니다. 다음으로, 추론 선호도 최적화(RPO) 라는 독창적인 방법을 통해 높은 정확도를 유지하면서도 신뢰할 수 있는 추론 경로 생성 능력을 향상시켰습니다.

그 결과는 놀라웠습니다. 일본 의사 면허 시험 기준인 IgakuQA에서 0.868의 정확도를 기록하며, 경쟁 모델인 GPT-4o (0.866)를 능가하는 최첨단 성능을 달성했습니다. 더욱 중요한 것은, 기존 모델들과 달리 설명 생성 요청 시에도 정확도 저하 없이 안정적인 추론 능력을 유지했다는 점입니다. 이것은 RPO의 효과를 명확하게 보여주는 결과입니다.

이 연구는 정확도와 더불어 신뢰할 수 있는 설명 생성의 중요성을 강조하며, Preferred-MedLLM-Qwen-72B 모델 가중치를 공개하여 의료 분야를 넘어 고위험도 애플리케이션을 위한 신뢰할 수 있는 LLM 연구를 더욱 활발하게 진행할 수 있도록 지원할 계획입니다. 이를 통해 의료 현장의 혁신과 더 나아가 인류의 건강 증진에 크게 기여할 것으로 기대됩니다.

주요 내용 한 눈에:

  • 모델: Preferred-MedLLM-Qwen-72B (72B 파라미터)
  • 방법: 지속적 사전 훈련(CPT) + 추론 선호도 최적화(RPO)
  • 성과: IgakuQA에서 0.868 정확도 달성 (GPT-4o 상회)
  • 특징: 설명 생성 요청 시에도 정확도 유지
  • 공개: 모델 가중치 공개

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Stabilizing Reasoning in Medical LLMs with Continued Pretraining and Reasoning Preference Optimization

Published:  (Updated: )

Author: Wataru Kawakami, Keita Suzuki, Junichiro Iwasawa

http://arxiv.org/abs/2504.18080v1