스칸디나비아 의료 AI의 현주소: NLP 연구 현황과 과제


스칸디나비아 언어(노르웨이어, 스웨덴어, 덴마크어)를 대상으로 한 의료 NLP 연구는 스웨덴어에 편중되어 있으며, 노르웨이어와 덴마크어에 대한 연구는 부족합니다. 데이터 및 모델 공유 부족 또한 문제점으로 지적되며, 균형 있는 연구 발전과 협력 강화가 필요합니다.

related iamge

최근, 스칸디나비아 언어(노르웨이어, 스웨덴어, 덴마크어)의 전자 건강 기록(EHR)에 대한 자연어 처리(NLP) 연구 동향을 분석한 흥미로운 연구 결과가 발표되었습니다. Ashenafi Zebene Woldaregay 등 11명의 연구진은 2010년부터 2024년까지 발표된 논문 113편을 분석하여 스칸디나비아 의료 AI 분야의 현황과 과제를 밝혀냈습니다.

놀라운 스웨덴어의 약진, 뒤처지는 노르웨이어와 덴마크어

연구 결과에 따르면, 분석된 논문 중 64%가 스웨덴어 EHR에 대한 NLP 연구였습니다. 반면, 노르웨이어는 18%, 덴마크어는 10%에 불과했습니다. 특히, 개인정보 비식별화(de-identification)와 같은 필수적인 작업에서는 스웨덴어에 비해 노르웨이어와 덴마크어 연구가 현저히 부족한 것으로 나타났습니다. 이는 스칸디나비아 지역 내에서도 언어별 NLP 기술 발전에 심각한 불균형이 존재함을 시사합니다.

협력 부족: 데이터와 모델 공유의 중요성

또 다른 우려되는 점은 연구 자료 공유 부족입니다. 연구진은 데이터, 실험 코드, 사전 훈련된 모델 공유 및 전이 학습(transfer learning)의 비율이 낮다는 점을 지적했습니다. 이러한 협력 부족은 연구 효율성 저하와 기술 발전 속도 지연으로 이어질 수 있습니다.

변압기 기반 모델(Transformer) 채택의 격차

최근 괄목할 만한 성능 향상을 보이고 있는 변압기 기반 모델의 채택률 역시 언어별로 큰 차이를 보였습니다. 스웨덴어 연구에서는 변압기 기반 모델이 상대적으로 많이 사용되었지만, 노르웨이어와 덴마크어 연구에서는 그 비중이 낮았습니다.

결론: 균형 있는 발전과 협력이 필요하다

이번 연구는 스칸디나비아 의료 AI 분야의 현황을 객관적으로 진단하고, 향후 발전 방향을 제시하는 데 중요한 의미를 갖습니다. 스웨덴어에 치우친 연구 현황을 균형 있게 조정하고, 데이터 및 모델 공유 생태계를 구축하는 노력이 시급합니다. 이를 통해 스칸디나비아 지역 전체의 의료 AI 기술 발전을 가속화할 수 있을 것입니다. 단순히 기술 개발에만 집중할 것이 아니라, 다양한 언어에 대한 포괄적인 지원과 연구자 간의 협력을 강화하는 것이 중요한 과제입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Natural Language Processing for Electronic Health Records in Scandinavian Languages: Norwegian, Swedish, and Danish

Published:  (Updated: )

Author: Ashenafi Zebene Woldaregay, Jørgen Aarmo Lund, Phuong Dinh Ngo, Mariyam Tayefi, Joel Burman, Stine Hansen, Martin Hylleholt Sillesen, Hercules Dalianis, Robert Jenssen, Lindsetmo Rolf Ole, Karl Øyvind Mikalsen

http://arxiv.org/abs/2503.18539v1