혁신적인 AI 기반 금융 텍스트 분석: 신할라어 및 영어 코드 혼합 콘텐츠 분석의 새로운 지평
본 연구는 신할라어-영어 코드 혼합 콘텐츠를 포함한 다국어 금융 텍스트 분석을 위한 혁신적인 하이브리드 NLP 방법을 제시합니다. Fine-tuned Transformer 모델을 활용하여 키워드 추출, 콘텐츠 필터링, 측면 분류에서 기존 방법을 능가하는 정확도를 달성하였으며, 저자원 언어 환경에서의 AI 기반 브랜드 평판 모니터링에 대한 새로운 해결책을 제시합니다.

금융권에서 브랜드 평판 유지는 고객 의견 분석에 달려 있습니다. 특히, 신할라어-영어와 같이 저자원 언어가 혼합된 코드 혼합 콘텐츠는 기존의 자연어 처리(NLP) 모델로는 정확한 분석이 어려웠습니다. 이러한 어려움을 극복하기 위해 F. A. Rizvi 외 6명의 연구자는 혁신적인 하이브리드 NLP 방법을 제시했습니다.
영어 키워드 추출: 다양한 모델의 시너지 효과
연구팀은 영어 키워드 추출을 위해 SpaCy NER 모델, FinBERT 기반 KeyBERT 임베딩, YAKE, 그리고 EmbedRank를 결합한 하이브리드 접근 방식을 사용했습니다. 그 결과, 놀라운 91.2%의 정확도를 달성했습니다. 다양한 모델의 강점을 결합한 하이브리드 방식이 단일 모델보다 뛰어난 성능을 보여준 것입니다. 이는 AI 모델들의 시너지 효과를 보여주는 좋은 예시입니다.
신할라어 및 코드 혼합 콘텐츠 분석: XLM-RoBERTa 모델의 활약
신할라어 및 코드 혼합 키워드 추출에는 도메인 특화 신할라어 금융 어휘와 통합된 미세 조정된 XLM-RoBERTa 모델을 사용했습니다. 이 모델은 87.4%의 정확도를 기록하며, 저자원 언어에 대한 AI 모델의 적용 가능성을 보여주었습니다. 이는 기존의 NLP 모델이 저자원 언어에 취약하다는 점을 감안하면 상당한 진전입니다.
데이터 품질 확보를 위한 노력: BERT와 XLM-RoBERTa의 탁월한 성능
데이터의 품질을 높이기 위해 여러 모델을 사용하여 무관한 의견을 걸러냈습니다. 그 결과, BERT-base-uncased 모델은 영어에서 85.2%, XLM-RoBERTa 모델은 신할라어에서 88.1%의 정확도를 달성했습니다. 이는 GPT-4o, SVM, 키워드 기반 필터링보다 훨씬 뛰어난 성능입니다. 이는 AI 모델이 데이터 전처리 단계에서도 효율적임을 증명합니다.
측면 분류: Transformer 모델의 우수성 재확인
측면 분류에서도 BERT-base-uncased 모델(영어 87.4%)과 XLM-RoBERTa 모델(신할라어 85.9%)이 GPT-4 및 키워드 기반 접근 방식을 능가하는 결과를 보였습니다. 이는 다국어 금융 텍스트 분석에서 미세 조정된 Transformer 모델의 우수성을 다시 한번 확인시켜줍니다.
결론: 코드 혼합 및 저자원 언어 환경에서의 브랜드 평판 모니터링을 위한 새로운 해결책
이 연구는 코드 혼합 및 저자원 언어를 포함하는 금융 환경에서 브랜드 평판 모니터링을 위한 정확하고 확장 가능한 솔루션을 제공합니다. 이 연구의 성과는 금융 분야뿐 아니라 다양한 분야에서 다국어 및 코드 혼합 콘텐츠 분석에 대한 새로운 가능성을 제시합니다. 앞으로 이러한 기술의 발전은 더욱 정교하고 효율적인 AI 기반 분석 시스템 구축에 기여할 것입니다.
Reference
[arxiv] Keyword Extraction, and Aspect Classification in Sinhala, English, and Code-Mixed Content
Published: (Updated: )
Author: F. A. Rizvi, T. Navojith, A. M. N. H. Adhikari, W. P. U. Senevirathna, Dharshana Kasthurirathna, Lakmini Abeywardhana
http://arxiv.org/abs/2504.10679v1