세마Eval-2025 작업 3: 정교한 모델 인식 환각 감지에 대한 HausaNLP 접근법
나이지리아 연구팀의 세마Eval-2025 참가 결과는 LLM의 환각 감지에 대한 새로운 접근법을 제시했습니다. 합성 데이터를 활용한 ModernBERT 모델 미세 조정은 실용적인 해결책을 보여주지만, 낮은 IoU 점수는 환각 검출의 어려움을 강조하며, 향후 연구의 방향을 제시합니다.

나이지리아 연구진, AI 환각 검출의 새로운 지평을 열다!
최근 나이지리아의 연구팀이 세마Eval-2025 작업 3: 다국어 환각 및 관련 관찰 가능한 과잉 생성 오류(MU-SHROOM) 에서 흥미로운 연구 결과를 발표했습니다. Maryam Bala 등 9명의 연구자로 구성된 이 팀은 대규모 언어 모델(LLM)의 환각 및 관련 과잉 생성 오류를 식별하는 모델을 개발했습니다.
이 연구의 핵심은 모델 인식(model-aware) 환각 감지에 있습니다. 단순히 환각을 감지하는 것을 넘어, 모델의 신뢰도와 환각 발생 간의 상관관계를 분석하여 환각의 심각도를 더욱 정교하게 이해하고자 했습니다. 14개 언어를 대상으로 진행된 이 연구는 특히 영어에 집중하여, 자연어 추론을 활용하고 ModernBERT 모델을 미세 조정했습니다.
연구팀은 400개의 샘플로 구성된 합성 데이터셋을 사용했습니다. 데이터 부족 문제를 해결하기 위한 실용적인 접근법입니다. 훈련 결과, Intersection over Union (IoU) 점수는 0.032, 상관 점수는 0.422를 기록했습니다. 상관 점수는 모델의 신뢰도 점수와 실제 환각 존재 간에 중간 정도의 양의 상관관계가 있음을 시사합니다. 하지만 IoU 점수가 낮은 것은 모델이 예측한 환각 구간과 실제 주석 간의 일치도가 낮다는 것을 의미합니다.
연구팀은 이러한 결과에 대해, 환각 감지의 복잡성을 고려했을 때 놀라운 결과는 아니라고 설명합니다. 환각은 종종 맥락에 의존하여 미묘하게 나타나기 때문에, 그 경계를 정확하게 찾아내는 것이 매우 어렵기 때문입니다.
결론적으로, 이 연구는 LLM의 환각 감지 문제에 대한 새로운 시각을 제공합니다. 낮은 IoU 점수는 아직 개선의 여지가 있음을 보여주지만, 모델의 신뢰도 점수와 환각 발생 간의 상관관계 분석은 향후 연구 방향을 제시합니다. 미래 연구에서는 더욱 정교한 모델과 더욱 풍부한 데이터를 활용하여 맥락 이해를 개선하고 환각의 경계를 더욱 정확하게 식별하는 데 집중해야 할 것입니다. 이러한 노력을 통해, 보다 신뢰할 수 있고 안전한 LLM 개발에 기여할 수 있을 것입니다.
Reference
[arxiv] HausaNLP at SemEval-2025 Task 3: Towards a Fine-Grained Model-Aware Hallucination Detection
Published: (Updated: )
Author: Maryam Bala, Amina Imam Abubakar, Abdulhamid Abubakar, Abdulkadir Shehu Bichi, Hafsa Kabir Ahmad, Sani Abdullahi Sani, Idris Abdulmumin, Shamsuddeen Hassan Muhamad, Ibrahim Said Ahmad
http://arxiv.org/abs/2503.19650v1