30개 언어에서 LLM의 환각 현상 연구: 놀라운 결과 발견!


30개 언어와 6개의 오픈소스 LLM을 대상으로 한 대규모 연구를 통해 다국어 환각 검출 모델을 훈련하고, 고자원 언어에서 LLM의 환각률이 높지만 디지털 표현과 상관관계는 없다는 점, 소규모 LLM의 환각률이 더 높다는 점을 발견했습니다. 이는 LLM의 환각 문제 해결을 위한 중요한 시사점을 제공합니다.

related iamge

거짓 정보의 시대, AI의 환각은 얼마나 위험할까요?

대규모 언어 모델(LLM)의 발전은 놀랍지만, 그 그림자에는 '환각'이라는 심각한 문제가 있습니다. 환각이란 LLM이 사실이 아닌 정보나 부정확한 응답을 생성하는 현상으로, 전 세계적인 활용에 있어 주요 위험 요소로 작용합니다.

지금까지의 대부분의 연구는 영어 중심적이었고, 기계 번역이나 요약과 같은 특정 작업에 초점을 맞추었습니다. 하지만, 실제로 우리가 LLM을 사용하는 방식은 이보다 훨씬 다양합니다. Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš 등의 연구진은 이러한 한계를 극복하고자, 30개 언어와 6개의 오픈소스 LLM 패밀리를 대상으로 대규모 연구를 진행했습니다. 그들의 연구는 지식 집약적인 장문 답변에서의 LLM 환각 현상을 정량적으로 측정하는 데 집중했습니다.

다국어 환각 검출 모델의 훈련과 검증

연구진은 영어 환각 검출 데이터셋을 기반으로 기계 번역을 활용하여 다른 언어의 훈련 데이터를 생성했습니다. 5개의 고자원 언어에 대해서는 수동으로 데이터를 주석 처리하여, LLM이 생성한 데이터와 수동으로 주석 처리된 데이터 간의 환각률 추정치를 비교하고 검증했습니다. 놀랍게도, 두 데이터셋 간 환각률 추정치는 매우 유사했습니다!

30개 언어에 대한 환각률 분석: 예상치 못한 결과

연구진은 30개 언어에 대한 지식 집약적인 질의응답 데이터셋을 구축하여, LLM이 생성한 질문과 위키피디아 문서를 참조하여 환각률을 분석했습니다. 그 결과, 고자원 언어일수록 LLM이 더 긴 응답과 더 많은 환각 토큰을 생성하는 경향이 있었지만, 길이로 정규화된 환각률과 언어의 디지털 표현 간에는 상관관계가 없다는 사실을 발견했습니다. 즉, 디지털화 수준이 높은 언어라고 해서 환각률이 낮은 것은 아니었습니다.

또한, 소규모 LLM이 대규모 LLM보다 환각률이 훨씬 높다는 사실을 확인했습니다. 이는 모델의 크기가 환각 현상을 완화하는 데 중요한 역할을 한다는 것을 시사합니다.

미래를 위한 시사점

이 연구는 LLM의 환각 현상에 대한 이해를 심화시키고, 다국어 환경에서의 신뢰성 있는 LLM 개발에 중요한 시사점을 제공합니다. 앞으로는 LLM의 환각 문제 해결을 위한 더욱 심도있는 연구와 함께, 사용자들이 환각으로 인한 부정확한 정보에 노출되지 않도록 보호하는 방안 마련이 필수적입니다. 이 연구는 그 첫걸음이 될 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild

Published:  (Updated: )

Author: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš

http://arxiv.org/abs/2502.12769v1