거대 시각 언어 모델의 환각 문제, 이제 EMPO가 해결합니다!
중국과학원 자동화연구소 연구팀이 개발한 EMPO는 거대 시각 언어 모델의 환각 문제를 효과적으로 해결하는 새로운 방법입니다. 오픈소스 데이터를 활용하여 고품질 선호도 데이터를 자동 생성하고, 실험 결과 환각률을 최대 85.9%까지 감소시키는 놀라운 성과를 거두었습니다.

거대 시각 언어 모델의 환각 문제: 현실과의 간극을 좁히다
최근 눈부신 발전을 거듭하고 있는 거대 시각 언어 모델(LVLMs)은 다양한 작업에서 놀라운 능력을 선보이고 있습니다. 하지만, LVLMs의 신뢰성을 위협하는 심각한 문제가 존재합니다. 바로 환각(hallucination) 입니다. 환각은 모델이 사실이 아닌 정보를 생성하는 현상으로, 모달리티 불일치와 기저에 깔린 거대 언어 모델(LLMs)의 고유한 환각 문제에서 기인합니다.
기존의 선호도 정렬 방법들은 인간의 선호도에 모델의 응답을 맞추는 데 집중했지만, 이미지-텍스트 모달리티 정렬에는 소홀했습니다. 결과적으로 LLM에 과도하게 의존하며 환각 문제를 해결하지 못했습니다.
혁신적인 해결책: EMPO의 등장
중국과학원 자동화연구소의 Jiulong Wu 박사 연구팀은 이러한 문제를 해결하기 위해 개체 중심 다모달 선호도 최적화(Entity-centric Multimodal Preference Optimization, EMPO) 라는 혁신적인 방법을 제안했습니다. EMPO는 기존 방법들보다 향상된 모달리티 정렬을 달성합니다. 또한, 고품질 다모달 선호도 데이터의 부족 문제를 해결하기 위해 오픈소스 지시 데이터셋을 활용하여 이미지, 지시, 응답 세 가지 측면에서 고품질 선호도 데이터를 자동으로 생성했습니다.
놀라운 성과: 환각률 85.9% 감소
두 개의 인간 선호도 데이터셋과 다섯 개의 다모달 환각 벤치마크를 이용한 실험 결과는 EMPO의 효과를 명확히 보여줍니다. Object-HalBench에서는 환각률을 85.9%나 감소시켰고, MM-HalBench에서는 49.8% 감소시켰습니다. 이는 EMPO가 LVLMs의 환각 문제 해결에 있어 획기적인 돌파구를 마련했음을 시사합니다.
미래를 향한 전망: 더욱 신뢰할 수 있는 AI 시스템으로
Wu 박사 연구팀의 EMPO는 단순한 기술적 진보를 넘어, 더욱 신뢰할 수 있고 안전한 AI 시스템 구축에 중요한 이정표를 세웠습니다. 앞으로 EMPO를 기반으로 한 후속 연구들을 통해 LVLMs의 환각 문제가 더욱 효과적으로 해결되고, AI가 우리 사회에 더욱 긍정적인 영향을 미칠 수 있기를 기대합니다. 이 연구는 AI의 발전과 더불어 신뢰성 확보라는 중요한 과제를 동시에 해결하려는 노력의 좋은 사례로 평가됩니다.
Reference
[arxiv] Mitigating Hallucinations in Large Vision-Language Models via Entity-Centric Multimodal Preference Optimization
Published: (Updated: )
Author: Jiulong Wu, Zhengliang Shi, Shuaiqiang Wang, Jizhou Huang, Dawei Yin, Lingyong Yan, Min Cao, Min Zhang
http://arxiv.org/abs/2506.04039v1