혁신적인 AI 환각 검출: 다중 토큰 집계의 힘
본 연구는 기존 비전-언어 모델의 환각 문제 해결을 위해 다중 토큰 집계 기반의 새로운 환각 검출 방법 MTRE를 제시합니다. 실험 결과, MTRE는 기존 방법보다 월등히 높은 성능을 보이며, AI의 신뢰성 향상에 크게 기여할 것으로 예상됩니다.

꿈꾸는 기계, 그러나 착각은 금물: AI의 환각 문제와 획기적인 해결책
최근 놀라운 발전을 거듭하고 있는 비전-언어 모델(VLMs)은 인간의 수준에 근접하는 다양한 작업을 수행합니다. 하지만 여전히 '환각'이라는 난관에 부딪히고 있습니다. 즉, 실제로 존재하지 않는 물체를 만들어내거나, 안전하지 않은 텍스트를 생성하는 문제입니다.
기존의 환각 검출 방법들은 주로 생성된 첫 번째 토큰의 logit만 분석하거나, 최고 점수를 가진 구성 요소만을 고려하여 중요한 정보를 놓치는 경우가 많았습니다. Geigh Zollicoffer, Minh Vu, Manish Bhattarai 등 연구진은 이러한 한계를 극복하기 위해, 초기 토큰들의 전체 시퀀스를 분석하는 새로운 접근법을 제시했습니다.
핵심은 '시간'입니다. 환각은 여러 토큰이 생성되는 과정에서 미묘한 불일치가 축적되어 나타나는 경우가 많습니다. 연구진은 환각된 토큰과 그렇지 않은 토큰의 logit 간의 KL(Kullback-Leibler) 발산을 분석하여 후속 토큰의 logit을 포함하는 것이 VLM의 신뢰성 동역학을 더 정확하게 포착하는 데 중요함을 강조했습니다.
이를 바탕으로 연구진은 MTRE(Multi-Token Reliability Estimation) 이라는 새로운 방법을 제안했습니다. MTRE는 처음 열 개의 토큰에서 얻은 logit을 다중 토큰 로그 가능도 비율과 자기 주의 메커니즘을 사용하여 집계하는 경량의 화이트박스 방식입니다. 매우 큰 어휘 크기와 긴 logit 시퀀스라는 어려움에도 불구하고, MTRE는 효율적이고 실용적입니다.
MAD-Bench, MM-SafetyBench, MathVista, 그리고 네 가지 구성 기하학 벤치마크에서 MTRE는 기존 방법인 SLP에 비해 AUROC(Area Under the Receiver Operating Characteristic curve)를 9.4 +/- 1.3 포인트, P(True)에 비해 12.1 +/- 1.7 포인트 향상시켰습니다. 이는 오픈소스 VLM 환각 검출 분야에서 새로운 최고 성능을 기록한 것입니다.
결론적으로, 이 연구는 단순히 첫 번째 토큰만 분석하는 기존 방식의 한계를 넘어, 시간적 흐름을 고려한 다중 토큰 분석을 통해 AI의 환각 문제 해결에 새로운 지평을 열었습니다. MTRE는 AI의 신뢰성과 안전성을 높이는 데 크게 기여할 것으로 기대됩니다. 이는 AI 기술의 발전과 함께 윤리적 문제에 대한 고민이 더욱 중요해지고 있음을 시사합니다.
Reference
[arxiv] Diverging Towards Hallucination: Detection of Failures in Vision-Language Models via Multi-token Aggregation
Published: (Updated: )
Author: Geigh Zollicoffer, Minh Vu, Manish Bhattarai
http://arxiv.org/abs/2505.11741v1