STORM: MLLM의 시각적 평가 능력을 위한 획기적인 벤치마크
Jinhong Wang 등 연구진이 개발한 STORM 벤치마크는 MLLM의 시각적 평가 능력 향상을 위한 획기적인 시도로, 다양한 시각적 평가 영역을 포괄하는 14개의 서열 회귀 데이터셋과 혁신적인 거친-미세 처리 파이프라인을 제공합니다. 이는 MLLM의 제로샷 성능 평가에 초점을 맞춰 실제 응용 환경에서의 성능을 향상시키는 데 기여할 것으로 기대됩니다.

AI의 눈을 뜨게 하는 혁신: STORM 벤치마크
최근 멀티모달 대규모 언어 모델(MLLM)의 발전은 눈부시지만, 여전히 시각적 콘텐츠의 다차원적 정량화 능력, 특히 서열 회귀(Ordinal Regression) 작업에서는 부족한 모습을 보였습니다. 이미지 품질 평가, 얼굴 나이 추정, 의료 이미지 등급 매기기와 같은 작업에서 MLLM의 성능 향상이 시급한 과제였습니다.
이러한 문제를 해결하고자, Jinhong Wang 등 연구진은 STORM (Stimulating Trustworthy Ordinal Regression Ability of MLLMs) 벤치마크를 개발했습니다. STORM은 다섯 가지 시각적 평가 영역에 걸쳐 14개의 서열 회귀 데이터셋을 포함하며, 65만 쌍 이상의 이미지-레이블 쌍과 정교하게 선별된 시각적 질문 답변(VQA) 데이터를 제공합니다. 이는 MLLM의 시각적 평가 능력을 종합적으로 평가하고 향상시키기 위한 획기적인 시도입니다.
특히, STORM은 **'거친-미세 처리 파이프라인'**이라는 혁신적인 방법을 제시합니다. 이 파이프라인은 레이블 후보를 동적으로 고려하고 해석 가능한 추론 과정을 제공하여 MLLM에게 일반적이고 신뢰할 수 있는 서열적 사고 패러다임을 제공합니다. 이를 통해 MLLM은 단순히 레이블을 예측하는 것을 넘어, 레이블 간의 상호 관계를 이해하고 정확한 평가를 내릴 수 있도록 지원합니다.
STORM은 MLLM의 '올인원(all-in-one)' 및 '제로샷(zero-shot)' 성능 평가에 중점을 두고 있습니다. 이는 실제 응용 환경에서 MLLM이 얼마나 효과적으로 작동하는지 평가하는 데 중요한 지표입니다. 연구진은 광범위한 실험을 통해 이 프레임워크의 효과를 입증하고, 보다 효과적인 미세 조정 전략을 제시했습니다. 더 나아가, STORM 데이터셋, 벤치마크, 그리고 사전 훈련된 모델은 https://storm-bench.github.io/ 에서 공개되어, 관련 분야 연구에 중요한 기여를 할 것으로 기대됩니다.
STORM은 단순한 데이터셋이 아닌, AI의 시각적 이해 능력 향상을 위한 혁신적인 도약입니다. MLLM의 시각적 평가 능력 향상은 자율주행, 의료 영상 분석, 이미지 생성 등 다양한 분야에 혁신적인 변화를 가져올 것입니다. STORM의 등장은 이러한 혁신을 앞당길 중요한 이정표가 될 것입니다. ✨
Reference
[arxiv] STORM: Benchmarking Visual Rating of MLLMs with a Comprehensive Ordinal Regression Dataset
Published: (Updated: )
Author: Jinhong Wang, Shuo Tong, Jian liu, Dongqi Tang, Jintai Chen, Haochao Ying, Hongxia Xu, Danny Chen, Jian Wu
http://arxiv.org/abs/2506.01738v1