다중 이미지 추론 능력 평가를 위한 새로운 벤치마크 MMRB 등장!


중국과학원 등 연구진이 개발한 MMRB 벤치마크는 92개의 하위 작업으로 구성된 다중 이미지 추론 능력 평가 도구로, 오픈소스 MLLM과 상용 MLLM 간의 성능 차이를 보여주었습니다. 이는 AI 기술 발전의 불균형을 시사하며, 향후 연구 및 투자의 중요성을 강조합니다.

related iamge

혁신적인 다중 이미지 추론 벤치마크 MMRB: AI의 한계와 가능성을 탐구하다

최근 다중 모드 대규모 언어 모델(MLLM)이 급속도로 발전하면서, 여러 이미지를 동시에 처리하고 추론하는 능력이 중요해지고 있습니다. 하지만 기존 벤치마크는 단일 이미지 시각적 추론이나 최종 답변 평가만을 중심으로 이루어져, MLLM의 다중 이미지 추론 능력에 대한 심층적인 평가가 부족했습니다.

이러한 한계를 극복하기 위해, 중국과학원 등의 연구진은 다중 이미지 추론 벤치마크(MMRB) 를 개발했습니다. MMRB는 92개의 하위 작업으로 구성되어 있으며, 공간, 시간, 의미적 추론 등 다양한 유형의 추론 능력을 평가합니다. 특히 GPT-4와 전문가 검토를 통해 생성된 다중 솔루션 및 CoT(Chain-of-Thought) 스타일 주석을 제공하여, 모델의 추론 과정을 상세히 분석할 수 있도록 설계되었습니다. 또한, 다중 이미지 시나리오에서 다중 모드 보상 모델을 평가하기 위한 파생 데이터셋도 포함되어 있습니다. 빠르고 확장 가능한 평가를 위해 오픈소스 LLM을 활용한 문장 수준 매칭 프레임워크도 함께 제시되었습니다.

연구진은 9개의 추론 특화 모델과 8개의 보상 모델을 포함한 40개의 MLLM을 대상으로 광범위한 실험을 수행했습니다. 그 결과, 오픈소스 MLLM은 다중 이미지 추론 작업에서 상용 MLLM에 비해 상당한 성능 차이를 보이는 것으로 나타났습니다. 특히, 현재의 다중 모드 보상 모델은 다중 이미지 보상 순위 작업에는 거의 적용할 수 없다는 사실도 확인되었습니다.

이번 연구는 MLLM의 다중 이미지 추론 능력에 대한 객관적인 평가 기준을 제시하고, 향후 연구 방향을 제시하는 중요한 의미를 지닙니다. MMRB는 MLLM의 발전을 가속화하고, 보다 정교하고 강력한 AI 시스템 개발을 위한 중요한 이정표가 될 것으로 기대됩니다. 하지만 동시에 오픈소스 MLLM과 상용 MLLM 간의 성능 격차는 AI 기술 발전의 불균형을 시사하며, 이에 대한 지속적인 연구와 투자가 필요함을 보여줍니다.

주요 연구진: Ziming Cheng, Binrui Xu, Lisheng Gong 외 15명


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Evaluating MLLMs with Multimodal Multi-image Reasoning Benchmark

Published:  (Updated: )

Author: Ziming Cheng, Binrui Xu, Lisheng Gong, Zuhe Song, Tianshuo Zhou, Shiqi Zhong, Siyu Ren, Mingxiang Chen, Xiangchao Meng, Yuxin Zhang, Yanlin Li, Lei Ren, Wei Chen, Zhiyuan Huang, Mingjie Zhan, Xiaojie Wang, Fangxiang Feng

http://arxiv.org/abs/2506.04280v1