멀티모달 대규모 언어 모델의 일관성 이해 능력 평가: CORDIAL 벤치마크
Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, 그리고 Lee Dongwon 연구팀이 개발한 CORDIAL 벤치마크는 멀티모달 대규모 언어 모델(MLLM)의 일관성 이해 능력을 평가합니다. 실험 결과, 최첨단 모델도 단순 분류기 기반 모델을 능가하지 못했으며, 이는 MLLM 평가에 담화 중심 프레임워크가 필요함을 시사합니다.

최근 급부상하고 있는 멀티모달 대규모 언어 모델(MLLM)은 다양한 문제 영역에서 뛰어난 지시사항 준수 및 추론 능력을 선보이고 있습니다. 하지만 기존 벤치마크는 주로 하위 작업에서의 사실적 및 논리적 정확성에 초점을 맞춰 평가되었고, 실용적인 단서와 모달 간 관계를 해석하는 MLLM의 능력 평가는 상대적으로 부족했습니다.
이러한 한계를 극복하기 위해, Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, 그리고 Lee Dongwon 연구팀은 CORDIAL이라는 새로운 벤치마크를 개발했습니다. CORDIAL은 다중 모달 담화 분석(MDA) 에서 일관성 관계를 활용하여 MLLM의 능력을 평가합니다. 다양한 수준의 세분성을 가진 3가지 담화 영역에 걸쳐 광범위한 일관성 관계를 포함하고 있어, MLLM의 이해 능력을 보다 포괄적으로 평가할 수 있도록 설계되었습니다.
연구팀은 10개 이상의 MLLM에 다양한 프롬프팅 전략을 적용하여 실험을 진행했습니다. 놀랍게도, Gemini 1.5 Pro와 GPT-4o와 같은 최첨단 모델조차도 단순한 분류기 기반 기준 모델의 성능을 능가하지 못했습니다. 이는 기존의 유사성 기반 지표만으로는 MLLM의 능력을 제대로 평가할 수 없다는 것을 시사합니다.
연구 결과는 MLLM 평가에 있어 유사성 기반 지표에서 벗어나 담화 중심 프레임워크를 채택해야 함을 강조합니다. CORDIAL 벤치마크는 MLLM의 능력을 더욱 정교하고 정확하게 평가하는 데 중요한 역할을 할 것으로 기대됩니다. CORDIAL 벤치마크와 코드는 GitHub에서 확인할 수 있습니다.
이 연구는 MLLM의 발전 방향에 대한 중요한 시사점을 제공합니다. 단순히 정답을 맞추는 능력뿐 아니라, 언어와 이미지, 비디오 등 다양한 모달 간의 관계를 이해하고, 복잡한 담화 구조를 분석하는 능력이 MLLM의 진정한 성능을 평가하는 데 필수적임을 보여주고 있습니다. 향후 MLLM 연구는 일관성 및 담화 이해 능력 향상에 더욱 집중해야 할 것입니다. 이는 더욱 자연스럽고 인간적인 AI 시스템 개발로 이어질 것입니다.
Reference
[arxiv] CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships?
Published: (Updated: )
Author: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee
http://arxiv.org/abs/2502.11300v1