스칸디나비아 의료 AI의 현주소: NLP 연구 현황과 과제
스칸디나비아 언어(노르웨이어, 스웨덴어, 덴마크어)를 대상으로 한 의료 NLP 연구는 스웨덴어에 편중되어 있으며, 노르웨이어와 덴마크어에 대한 연구는 부족합니다. 데이터 및 모델 공유 부족 또한 문제점으로 지적되며, 균형 있는 연구 발전과 협력 강화가 필요합니다.

최근, 스칸디나비아 언어(노르웨이어, 스웨덴어, 덴마크어)의 전자 건강 기록(EHR)에 대한 자연어 처리(NLP) 연구 동향을 분석한 흥미로운 연구 결과가 발표되었습니다. Ashenafi Zebene Woldaregay 등 11명의 연구진은 2010년부터 2024년까지 발표된 논문 113편을 분석하여 스칸디나비아 의료 AI 분야의 현황과 과제를 밝혀냈습니다.
놀라운 스웨덴어의 약진, 뒤처지는 노르웨이어와 덴마크어
연구 결과에 따르면, 분석된 논문 중 64%가 스웨덴어 EHR에 대한 NLP 연구였습니다. 반면, 노르웨이어는 18%, 덴마크어는 10%에 불과했습니다. 특히, 개인정보 비식별화(de-identification)와 같은 필수적인 작업에서는 스웨덴어에 비해 노르웨이어와 덴마크어 연구가 현저히 부족한 것으로 나타났습니다. 이는 스칸디나비아 지역 내에서도 언어별 NLP 기술 발전에 심각한 불균형이 존재함을 시사합니다.
협력 부족: 데이터와 모델 공유의 중요성
또 다른 우려되는 점은 연구 자료 공유 부족입니다. 연구진은 데이터, 실험 코드, 사전 훈련된 모델 공유 및 전이 학습(transfer learning)의 비율이 낮다는 점을 지적했습니다. 이러한 협력 부족은 연구 효율성 저하와 기술 발전 속도 지연으로 이어질 수 있습니다.
변압기 기반 모델(Transformer) 채택의 격차
최근 괄목할 만한 성능 향상을 보이고 있는 변압기 기반 모델의 채택률 역시 언어별로 큰 차이를 보였습니다. 스웨덴어 연구에서는 변압기 기반 모델이 상대적으로 많이 사용되었지만, 노르웨이어와 덴마크어 연구에서는 그 비중이 낮았습니다.
결론: 균형 있는 발전과 협력이 필요하다
이번 연구는 스칸디나비아 의료 AI 분야의 현황을 객관적으로 진단하고, 향후 발전 방향을 제시하는 데 중요한 의미를 갖습니다. 스웨덴어에 치우친 연구 현황을 균형 있게 조정하고, 데이터 및 모델 공유 생태계를 구축하는 노력이 시급합니다. 이를 통해 스칸디나비아 지역 전체의 의료 AI 기술 발전을 가속화할 수 있을 것입니다. 단순히 기술 개발에만 집중할 것이 아니라, 다양한 언어에 대한 포괄적인 지원과 연구자 간의 협력을 강화하는 것이 중요한 과제입니다.
Reference
[arxiv] Natural Language Processing for Electronic Health Records in Scandinavian Languages: Norwegian, Swedish, and Danish
Published: (Updated: )
Author: Ashenafi Zebene Woldaregay, Jørgen Aarmo Lund, Phuong Dinh Ngo, Mariyam Tayefi, Joel Burman, Stine Hansen, Martin Hylleholt Sillesen, Hercules Dalianis, Robert Jenssen, Lindsetmo Rolf Ole, Karl Øyvind Mikalsen
http://arxiv.org/abs/2503.18539v1