2025 SemEval 음식 위험 감지 과제: 데이터 불균형 해결과 Focal Loss의 승리
2025 SemEval 음식 위험 감지 과제에서 중국과학원 연구팀은 데이터 증강 기법과 Focal Loss를 활용하여 클래스 불균형 문제를 효과적으로 해결하고, BERT 및 RoBERTa 기반 모델의 성능을 향상시켰습니다. 이 연구는 다양한 NLP 분야의 불균형 데이터 문제 해결에 중요한 시사점을 제공합니다.

중국과학원(Chinese Academy of Sciences)의 Cai Zhuoang 박사 연구팀이 2025 SemEval Task 9(음식 위험 감지)에서 괄목할 만한 성과를 거두었습니다. 연구팀은 심각한 클래스 불균형, 짧고 비정형적인 텍스트, 그리고 중복되는 의미 범주라는 세 가지 난관에 직면한 음식 위험 감지 분류 작업에서 혁신적인 해결책을 제시했습니다. 바로 데이터 증강입니다.
핵심은 데이터 불균형 문제의 해결입니다. 음식 위험 감지 분야는 특정 위험 유형의 데이터가 부족하여 모델 학습에 어려움을 겪습니다. 연구팀은 이 문제를 해결하기 위해 다양한 데이터 균형 전략을 활용했습니다. 무작위 과대 샘플링(random oversampling), Easy Data Augmentation(EDA), 그리고 Focal Loss가 그것입니다. 특히, EDA는 클래스 불균형을 효과적으로 완화하여 정확도와 F1 점수를 크게 향상시켰다는 점이 주목할 만합니다.
또한, 연구팀은 BERT와 RoBERTa와 같은 강력한 트랜스포머 기반 모델을 기본 분류기로 사용했습니다. 이는 최근 자연어 처리 분야에서 트랜스포머 모델의 뛰어난 성능을 다시 한번 확인시켜 주는 결과입니다.
더 나아가, Focal Loss를 Oversampling과 EDA와 결합함으로써 모델의 강건성을 더욱 향상시켰습니다. Focal Loss는 어려운 예측 사례에 대한 모델의 성능을 향상시키는 데 효과적임을 보였습니다. 이를 통해, 어려운 분류 예제에 대한 모델의 성능을 향상시키고, 보다 안정적인 예측 결과를 얻을 수 있었습니다.
이 연구는 단순히 음식 위험 감지 분야에만 국한되지 않습니다. 데이터 불균형 문제는 많은 자연어 처리 과제에서 공통적으로 나타나는 어려움입니다. Cai 박사 연구팀의 연구는 이러한 문제에 대한 효과적인 해결책을 제시함으로써, 다양한 분야의 NLP 기반 분류 모델 개발에 중요한 기여를 할 것으로 기대됩니다. 앞으로 이러한 기법들이 다른 분야의 불균형 데이터 문제 해결에 어떻게 적용될지 귀추가 주목됩니다.
Reference
[arxiv] Ustnlp16 at SemEval-2025 Task 9: Improving Model Performance through Imbalance Handling and Focal Loss
Published: (Updated: )
Author: Zhuoang Cai, Zhenghao Li, Yang Liu, Liyuan Guo, Yangqiu Song
http://arxiv.org/abs/2505.00021v1