혁신적인 다국어 감정 분석: 싱할라어, 영어, 코드 믹스 콘텐츠를 아우르는 새로운 지평


본 연구는 다국어, 특히 저자원 언어인 싱할라어를 포함한 감정 분석 모델의 정확도와 설명 가능성을 크게 향상시킨 혁신적인 연구입니다. 은행권 고객 피드백 분석에 적용 가능하며, 실제 비즈니스 환경에서 활용 가능성이 높은 실용적인 결과를 제시합니다.

related iamge

금융권 브랜드 평판 관리에 있어 고객 피드백 분석은 매우 중요합니다. 특히 영어, 싱할라어, 싱글리시, 그리고 코드 믹스된 텍스트가 혼합된 상황에서는 더욱 정교한 분석 시스템이 필요합니다. 기존의 감정 분석 모델들은 싱할라어와 같은 저자원 언어에 대한 처리 능력이 부족하고, 분석 결과에 대한 설명력이 낮다는 한계를 가지고 있었습니다.

Azmarah Rizvi를 비롯한 연구진은 이러한 문제점을 해결하기 위해 획기적인 연구를 진행했습니다. 그들은 하이브리드 어스펙트 기반 감정 분석 프레임워크를 개발하여 다국어 처리 능력을 향상시키고, 동시에 결과의 설명 가능성을 높였습니다.

어떻게 가능했을까요?

연구진은 정제된 은행 고객 리뷰 데이터를 사용하여 XLM-RoBERTa를 싱할라어와 코드 믹스 텍스트에 미세 조정하고, 도메인 특화 어휘 사전을 통합했습니다. 영어 텍스트에는 BERT-base-uncased를 사용했습니다. 여기서 멈추지 않고, SHAP과 LIME 기법을 활용하여 실시간 감정 분석 설명을 제공함으로써 모델의 투명성을 높였습니다.

결과는 놀라웠습니다!

이 시스템은 감정(긍정적, 중립적, 부정적)을 신뢰도 점수와 함께 분류하며, 영어에서는 92.3%의 정확도와 0.89의 F1 점수, 싱할라어 및 코드 믹스 콘텐츠에서는 88.4%의 정확도를 달성했습니다. 이는 기존의 트랜스포머 기반 분류기보다 훨씬 뛰어난 성능입니다. 더욱 중요한 것은, 설명 가능성 분석을 통해 주요 감정 요인을 파악하여 신뢰도와 투명성을 크게 향상시켰다는 점입니다.

마지막으로, 사용자 친화적인 인터페이스를 통해 어스펙트별 감정 분석 결과를 제공하여 기업들이 손쉽게 활용할 수 있도록 했습니다. 이 연구는 다국어, 저자원 NLP 및 설명 가능성의 격차를 해소함으로써 금융 분야에 강력하고 투명한 감정 분석을 제공하는 데 크게 기여할 것입니다. 이는 단순한 기술적 발전을 넘어, 실제 비즈니스 환경에 긍정적인 영향을 미칠 수 있는 혁신적인 연구라는 점에서 큰 의미를 가집니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Enhancing Multilingual Sentiment Analysis with Explainability for Sinhala, English, and Code-Mixed Content

Published:  (Updated: )

Author: Azmarah Rizvi, Navojith Thamindu, A. M. N. H. Adhikari, W. P. U. Senevirathna, Dharshana Kasthurirathna, Lakmini Abeywardhana

http://arxiv.org/abs/2504.13545v1