AI 건강 정보, 언어와 맥락에 따라 정확도 천차만별: 글로벌 보건 시스템의 과제
Prashant Garg과 Thiemo Fetzer의 연구는 AI 기반 건강 정보의 언어 및 맥락 의존성을 밝히며, 글로벌 건강 정보 제공 시스템 구축을 위한 다국어 및 도메인별 검증의 중요성을 강조합니다. 영어 중심 데이터셋으로 훈련된 AI 모델의 한계를 지적하며, 포괄적인 검증 절차의 필요성을 제시합니다.

최근 Prashant Garg과 Thiemo Fetzer의 연구 결과가 충격을 주고 있습니다. 영국과 EU의 승인을 받은 기본적인 건강 정보와, 낙태, 코로나19, 정치 등 다양한 주제에 대한 9,100개 이상의 언론 검증된 공중 보건 정보를 바탕으로 6개의 주요 대규모 언어 모델(LLM)을 21개 언어로 평가한 결과, 놀랍게도 정확도에 큰 차이가 있음이 드러났습니다.
놀랍게도 영어 중심의 교과서 수준의 주장에 대해서는 높은 정확도를 보였지만, 유럽어 이외의 여러 언어에서는 성능이 저하되었고, 주제와 정보 출처에 따라서도 정확도가 크게 변동하는 것으로 나타났습니다. 즉, AI가 제공하는 건강 정보가 언어와 맥락에 따라 얼마나 다른 결과를 보이는지 보여주는 연구입니다. 이는 단순히 번역의 문제를 넘어, 각 언어와 문화적 맥락에 맞는 데이터 학습의 부족을 시사합니다.
연구진은 엄청난 양의 데이터를 사용했는데, 피어리뷰 저널과 정부 자문부터 소셜 미디어와 정치적 스펙트럼을 아우르는 뉴스까지 광범위한 출처를 활용했습니다. 이는 AI 모델의 성능을 다각적으로 평가하기 위한 노력의 일환입니다. 하지만 그 결과는 명확합니다. AI 기반의 글로벌 건강 정보 시스템 구축을 위해서는, 단순한 다국어 지원을 넘어, 각 언어와 도메인에 특화된 포괄적인 검증 절차가 필수적입니다.
이 연구는 AI 기술의 발전과 더불어, 그 기술의 윤리적 책임과 사회적 영향에 대한 심도있는 고찰이 필요함을 다시 한번 일깨워줍니다. 글로벌 건강 불평등 해소라는 중요한 목표를 달성하기 위해서는, AI 기술의 잠재력을 극대화하면서 동시에 그 한계를 극복하기 위한 노력이 지속되어야 합니다. 특히, 정보 취약 계층에 대한 배려와 다양한 언어와 문화적 맥락을 고려한 AI 개발 및 검증이 더욱 중요해졌습니다. AI가 건강 정보의 신뢰성과 접근성을 높이는 데 기여할 수 있도록, 꾸준한 연구와 개선이 이루어져야 할 것입니다. ✨
Reference
[arxiv] Artificial Intelligence health advice accuracy varies across languages and contexts
Published: (Updated: )
Author: Prashant Garg, Thiemo Fetzer
http://arxiv.org/abs/2504.18310v1