R-Bench: 석사급 다학제적 벤치마크로 LLM과 MLLM의 추론 능력 평가


R-Bench는 석사급 난이도의 다학제적 벤치마크로, LLM과 MLLM의 복잡한 추론 능력을 평가합니다. 최첨단 모델들조차도 R-Bench에서 어려움을 겪어, AI 추론 기술 발전의 중요한 이정표가 될 것으로 기대됩니다. 데이터와 코드는 공개적으로 제공됩니다.

related iamge

석사급 난이도의 다학제적 추론 벤치마크, R-Bench 등장!

인공지능의 핵심 능력 중 하나인 추론. 기존의 벤치마크들은 실제 문제 해결에 필요한 복잡하고 섬세한 추론 능력을 제대로 평가하지 못한다는 한계를 지니고 있었습니다. 하지만 이제, R-Bench (Reasoning Bench) 가 등장하여 이러한 한계를 뛰어넘습니다!

Guo Meng-Hao 등 17명의 연구진이 개발한 R-Bench는 석사급 난이도의 다학제적 벤치마크로, 영어와 중국어를 모두 지원하는 것이 특징입니다. 무려 108개의 과목에 걸쳐 1094개의 질문(언어 모델 평가용)과 83개의 과목에 걸쳐 665개의 질문(다중 모달 모델 평가용)을 엄선하여 구성, 철저한 난이도 조정과 과목 균형, 그리고 언어 간 일관성을 확보했습니다. 마치 추론 능력 올림피아드와 같은 수준이라고 할 수 있죠!

R-Bench는 단순히 답을 맞추는 것을 넘어, 복잡한 문제 해결을 위한 다양한 추론 과정을 평가합니다. 다학제적이고 다중 모달적인 문제 상황을 통해 모델의 진정한 추론 능력을 시험하는 것이죠.

실험 결과는 놀라웠습니다. OpenAI의 GPT-4, DeepSeek-R1 등 최첨단 모델들조차도 R-Bench의 복잡한 추론 과제, 특히 다중 모달 추론 과제에서 상당한 어려움을 겪었습니다. 심지어 최고 성능 모델인 OpenAI의 모델조차도 다중 모달 평가에서 53.2%의 정확도에 그쳤습니다. 이 결과는 최첨단 모델들이 여전히 복잡한 추론 능력에 있어 개선의 여지가 많다는 것을 보여줍니다.

하지만 희망적인 소식도 있습니다! R-Bench의 데이터와 코드는 모두 공개적으로 제공됩니다. 이를 통해 전 세계 연구자들은 R-Bench를 활용하여 모델의 성능을 평가하고, 더욱 강력하고 정교한 추론 모델을 개발하는 데 도움을 받을 수 있습니다. R-Bench는 AI 추론 기술 발전에 중요한 이정표가 될 것으로 기대됩니다.

주요 내용:

  • R-Bench: 108개 과목, 1094개 질문(언어 모델), 83개 과목, 665개 질문(다중 모달 모델)
  • 영어 및 중국어 지원
  • 최첨단 모델의 다중 모달 추론 정확도: 53.2% 미만
  • 데이터 및 코드 공개

이 연구는 AI 추론 기술의 한계와 가능성을 동시에 보여주는 중요한 사례입니다. 앞으로 R-Bench를 기반으로 더욱 발전된 AI 추론 기술이 개발될 것을 기대하며, 지속적인 관심과 연구가 필요합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation

Published:  (Updated: )

Author: Meng-Hao Guo, Jiajun Xu, Yi Zhang, Jiaxi Song, Haoyang Peng, Yi-Xuan Deng, Xinzhi Dong, Kiyohiro Nakayama, Zhengyang Geng, Chen Wang, Bolin Ni, Guo-Wei Yang, Yongming Rao, Houwen Peng, Han Hu, Gordon Wetzstein, Shi-min Hu

http://arxiv.org/abs/2505.02018v1