인도네시아 대학교, 다국어 감정 분석 경진대회에서 혁신적인 성과 달성!


인도네시아 대학교 연구팀은 SemEval-2025 Task 11에서 프롬프트 기반 인코더와 CatBoost 기반 앙상블 모델을 활용하여 28개 언어의 다중 레이블 감정 분류에서 뛰어난 성능(F1-macro 56.58)을 달성했습니다. 이는 다국어 감정 분석 분야의 새로운 가능성을 제시하는 중요한 연구입니다.

related iamge

인도네시아 대학교의 놀라운 도약: 다국어 감정 분석의 새로운 지평을 열다!

인도네시아 대학교 연구팀(Ikhlasul Akmal Hanif 외 6명)이 SemEval-2025 Task 11에서 괄목할 만한 성과를 거두었습니다. 28개 언어에 걸친 다중 레이블 감정 분류라는 난제에 도전하여, 기존의 틀을 깨는 혁신적인 접근 방식으로 주목을 받았습니다.

트랜스포머 모델의 효율적인 활용: 프롬프트 기반 인코더의 힘

연구팀은 트랜스포머 모델의 완전 미세 조정과 분류기 전용 학습 두 가지 전략을 비교 분석했습니다. 그 결과, XLMR 및 mBERT와 같은 기존 모델을 완전히 미세 조정하는 것보다 mE5 및 BGE와 같은 프롬프트 기반 인코더를 활용하여 분류기를 학습하는 방식이 훨씬 더 우수한 성능을 보이는 것을 확인했습니다. 이는 다국어 감정 분석 분야에서 프롬프트 기반 인코더의 중요성을 부각하는 중요한 발견입니다.

최적의 조합: CatBoost와 BGE 모델 앙상블의 시너지

연구팀은 다양한 모델 아키텍처, 손실 함수, 그리고 분류기를 실험하며 최적의 조합을 찾아나섰습니다. 그 결과, CatBoost를 분류기로 사용하는 여러 BGE 모델을 결합한 앙상블 기법이 가장 뛰어난 성능을 보였습니다. 이 앙상블 모델은 28개 언어 전반에 걸쳐 평균 F1-macro 점수 56.58을 달성하며, 다국어 감정 분석의 새로운 기준을 제시했습니다.

미래를 향한 발걸음: 지속적인 연구와 발전

이번 연구는 다국어 감정 분석 분야에서 프롬프트 기반 인코더의 효용성을 명확히 보여주는 동시에, 모델 앙상블 기법의 실효성을 입증했습니다. 인도네시아 대학교 연구팀의 끊임없는 노력과 혁신적인 연구는 향후 다국어 자연어 처리 분야의 발전에 크게 기여할 것으로 기대됩니다. 이들의 연구 성과는 다국어 감정 분석 기술의 발전과 더 나아가 다양한 언어를 이해하는 AI 기술 개발에 중요한 이정표를 세웠다고 볼 수 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] University of Indonesia at SemEval-2025 Task 11: Evaluating State-of-the-Art Encoders for Multi-Label Emotion Detection

Published:  (Updated: )

Author: Ikhlasul Akmal Hanif, Eryawan Presma Yulianrifat, Jaycent Gunawan Ongris, Eduardus Tjitrahardja, Muhammad Falensi Azmi, Rahmat Bryan Naufal, Alfan Farizki Wicaksono

http://arxiv.org/abs/2505.16460v1