혁신적인 연구: 코드 혼합 언어의 모욕적 언어 감지
본 연구는 네팔어-영어 및 텔루구어-영어 코드 혼합 데이터셋을 활용하여 다양한 기계 학습 모델을 통해 모욕적 언어 감지 성능을 평가한 연구입니다. 저자원 언어 처리 분야에 중요한 기여를 하며, 다국어 소셜 미디어 환경에서의 모욕적 언어 감지 시스템 개발에 기여할 것으로 기대됩니다.

소셜 미디어 시대의 새로운 도전: 코드 혼합 언어와 모욕적 발언 감지
인터넷과 소셜 미디어의 발달로 인해 전 세계 사람들은 다양한 언어를 섞어 사용하는 코드 혼합(code-mixing) 현상을 보이고 있습니다. 특히 네팔어와 텔루구어처럼 저자원 언어를 사용하는 사용자들은 영어와 자국어를 자유롭게 혼용하며 의사소통합니다. 하지만 이러한 코드 혼합 현상은 모욕적 언어 감지 시스템에 새로운 어려움을 제기합니다. 문맥에 따라 모욕적인 의미가 달라질 수 있고, 언어의 혼용으로 인해 기존의 감지 모델들이 오류를 발생시키기 때문입니다.
Manish Pandey, Nageshwar Prasad Yadav, Mokshada Adduru, Sawan Rai 등의 연구자들은 이러한 문제를 해결하기 위해 네팔어-영어 및 텔루구어-영어 코드 혼합 데이터셋을 구축하고, 다양한 기계 학습 모델을 이용하여 모욕적 언어 감지 성능을 평가하는 연구를 진행했습니다.
2000개 이상의 데이터셋과 다양한 모델 실험
연구팀은 다양한 소셜 미디어 플랫폼에서 수집한 2,000개 이상의 텔루구어-영어 및 5,000개 이상의 네팔어-영어 코드 혼합 코멘트를 수동으로 주석을 달아 데이터셋을 구축했습니다. 이 데이터셋은 모욕적인 코멘트와 비모욕적인 코멘트로 분류되어 있습니다. 연구진은 이 데이터셋을 사용하여 로지스틱 회귀, 랜덤 포레스트, 서포트 벡터 머신(SVM), 신경망(NN), LSTM, CNN, 그리고 대규모 언어 모델(LLM) 등 다양한 기계 학습 모델을 실험했습니다. 모델의 성능을 최적화하기 위해 하이퍼파라미터 튜닝을 수행했으며, 10-fold 교차 검증과 t-검정을 통해 통계적 유의성 검증을 실시했습니다.
저자원 언어 처리 분야의 발전에 기여
이 연구는 저자원 언어 처리 분야에 중요한 기여를 합니다. 네팔어와 텔루구어와 같은 저자원 언어에 대한 모욕적 언어 감지 성능을 평가하고, 다양한 모델들의 비교 분석을 통해 향상된 모욕적 언어 감지 시스템 개발을 위한 기반을 마련했습니다. 또한, 연구팀이 공개한 데이터셋은 다른 연구자들이 더욱 발전된 모욕적 언어 감지 시스템을 개발하는데 유용하게 활용될 수 있습니다. 이는 다국어 소셜 미디어 환경에서 더욱 강력한 모더레이션 전략을 개발하는 데 큰 도움이 될 것입니다.
결론적으로, 이 연구는 코드 혼합 언어의 모욕적 언어 감지에 대한 새로운 접근 방식을 제시하고, 저자원 언어 처리 분야의 발전에 중요한 기여를 할 것으로 예상됩니다. 앞으로도 다양한 언어와 다양한 상황에 대한 연구가 지속적으로 진행되어야 할 것입니다.
Reference
[arxiv] Creating and Evaluating Code-Mixed Nepali-English and Telugu-English Datasets for Abusive Language Detection Using Traditional and Deep Learning Models
Published: (Updated: )
Author: Manish Pandey, Nageshwar Prasad Yadav, Mokshada Adduru, Sawan Rai
http://arxiv.org/abs/2504.21026v1