RBench-V: 시각적 추론 모델의 새로운 기준, 다중 모달 출력 능력 평가의 혁신


본 기사는 다중 모달 출력 능력 평가를 위한 새로운 벤치마크 RBench-V에 대해 소개합니다. RBench-V는 기존 벤치마크의 한계를 극복하고 시각적 추론 능력 평가에 중점을 두고 있으며, 최첨단 모델들의 낮은 정확도를 통해 시각적 추론의 어려움을 보여줍니다.

related iamge

RBench-V: 시각적 추론 모델의 새로운 기준, 다중 모달 출력 능력 평가의 혁신

GPT-4, Gemini, o3와 같은 최첨단 다중 모달 모델과 옴니 모델의 등장은 인공지능의 획기적인 발전을 의미합니다. 이러한 모델들은 텍스트와 이미지를 포함한 다양한 모달리티의 콘텐츠를 처리하고 생성할 수 있지만, 이들의 시각적 추론 능력, 즉 다중 모달 연쇄 사고(M-CoT) 능력에 대한 체계적인 평가는 아직 미흡한 실정입니다.

기존 벤치마크들은 주로 다중 모달 입력과 텍스트 기반 추론에 집중하여 다중 모달 출력을 통한 추론 능력 평가를 간과해왔습니다. Guo Meng-Hao 등 15명의 연구진이 발표한 논문에서는 이러한 문제점을 해결하기 위해 RBench-V라는 새로운 벤치마크를 제시합니다.

RBench-V는 수학, 물리, 계산, 게임 등 다양한 분야를 아우르는 803개의 질문으로 구성되어 있습니다. 기존 벤치마크와 달리 특정 입력 모달리티를 지정하지 않고, 이미지 조작(새로운 이미지 생성, 보조선 생성 등)을 필요로 하는 다중 모달 출력 중심의 문제를 제시합니다. 이를 통해 모델의 시각 정보 활용 추론 능력을 보다 정확하게 평가하고자 합니다.

연구진은 o3, Gemini 2.5 Pro, Qwen2.5-VL 등 다양한 오픈소스 및 클로즈드소스 모델들을 RBench-V로 평가했습니다. 놀랍게도 최고 성능 모델인 o3조차 25.8%의 정확도에 그쳤으며, 이는 인간의 82.3% 정확도와 비교했을 때 상당한 격차를 보입니다. 이는 현재 모델들이 다중 모달 추론을 효과적으로 활용하는 데 어려움을 겪고 있음을 시사합니다.

RBench-V 데이터와 코드는 https://evalmodels.github.io/rbenchv 에서 확인할 수 있습니다. RBench-V는 시각적 추론 모델의 발전에 중요한 이정표가 될 것으로 기대되며, 앞으로 다중 모달 AI 모델의 발전 방향을 제시하는 데 큰 역할을 할 것으로 예상됩니다. 특히, 이미지 이해 및 조작 능력을 필요로 하는 복잡한 추론 과제에 대한 연구가 더욱 활발해질 것으로 전망됩니다.

🎉 RBench-V의 등장은 다중 모달 AI 연구에 새로운 활력을 불어넣을 것입니다! 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs

Published:  (Updated: )

Author: Meng-Hao Guo, Xuanyu Chu, Qianrui Yang, Zhe-Han Mo, Yiqing Shen, Pei-lin Li, Xinjie Lin, Jinnian Zhang, Xin-Sheng Chen, Yi Zhang, Kiyohiro Nakayama, Zhengyang Geng, Houwen Peng, Han Hu, Shi-Nin Hu

http://arxiv.org/abs/2505.16770v1