폐암 및 유방암 진단의 혁신: NLP 기반 자동화된 의료 정보 추출 시스템


본 연구는 NLP 기술, 특히 NER을 활용하여 폐암 및 유방암 임상 보고서에서 의료 정보를 자동 추출하는 시스템을 개발했습니다. 스페인어 기반 RoBERTa 모델을 미세 조정하여 높은 정확도를 달성했으며, 향후 다양한 암 종류 및 희귀 개체에 대한 성능 향상이 기대됩니다.

related iamge

시간과 노력을 절약하는 획기적인 기술

의료 현장에서 암 연구는 방대한 양의 임상 보고서 분석에 의존합니다. 수동으로 정보를 추출하는 기존 방식은 시간이 많이 걸리고 오류가 발생하기 쉽습니다. 이러한 어려움을 해결하기 위해, Moreno-Casanova 외 연구진은 최근 자연어 처리(NLP) 기술을 활용하여 임상 보고서에서 관련 데이터를 자동으로 추출하는 시스템을 개발했습니다. 특히 폐암과 유방암에 집중하여, 이들 질병의 높은 발병률과 공중 보건에 미치는 중대한 영향을 고려했습니다. 조기 진단과 효과적인 데이터 관리가 환자의 예후 개선에 중요하기 때문입니다.

uQuery: 정확성과 효율성을 극대화하는 NLP 도구

연구진은 GMV의 NLP 도구인 uQuery를 사용하여 임상 텍스트에서 관련 개체를 식별하고 SNOMED 및 OMOP과 같은 표준 형식으로 변환했습니다. uQuery는 단순히 개체를 탐지하고 분류하는 것을 넘어, 부정된 개체, 시간적 측면 및 환자 관련 세부 정보를 포함한 맥락 정보와 연결합니다. 이를 통해 데이터 추출의 정확성과 효율성을 크게 향상시켰습니다.

NER과 RoBERTa 기반 모델의 조합: 놀라운 성능

연구에서 핵심적인 역할을 한 것은 명명된 개체 인식(NER) 기술입니다. 스페인어로 사전 훈련된 RoBERTa 기반 생의학 언어 모델인 bsc-bio-ehr-en3 모델을 미세 조정하여 폐암 및 유방암 관련 EHR에서 주요 임상 정보를 자동으로 식별하고 추출했습니다. IIS La Fe 병원에서 제공한 200건의 유방암 보고서와 400건의 폐암 보고서 데이터셋을 사용하여 Doccano 플랫폼으로 8개의 임상 개체를 수동으로 레이블링했습니다.

결과 및 향후 전망

실험 결과는 MET 및 PAT과 같은 개체 식별에서 특히 강력한 성능을 보였습니다. 하지만 EVOL과 같이 빈도가 낮은 개체에서는 여전히 개선의 여지가 있습니다. 이 연구는 NLP 기술을 활용하여 암 진단 및 치료 효율을 향상시킬 수 있는 잠재력을 보여줍니다. 향후 연구에서는 덜 빈번한 개체에 대한 성능을 향상시키고, 다양한 암 종류로 적용 범위를 확장하는 데 집중할 것입니다. 이 기술은 의료 분야의 혁신을 이끌고 환자들에게 더 나은 의료 서비스를 제공하는 데 기여할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Automated Detection of Clinical Entities in Lung and Breast Cancer Reports Using NLP Techniques

Published:  (Updated: )

Author: J. Moreno-Casanova, J. M. Auñón, A. Mártinez-Pérez, M. E. Pérez-Martínez, M. E. Gas-López

http://arxiv.org/abs/2505.09794v1