GDI-Bench: 시각 및 추론 분리 기반의 범용 문서 지능 벤치마크 등장!
본 기사는 시각 및 추론 분리 기반의 범용 문서 지능 벤치마크인 GDI-Bench의 개발 및 그 성능 평가 결과를 소개합니다. GDI-Bench는 1900개 이상의 이미지와 19개의 문서 특수 작업을 포함하며, 모델의 시각 및 추론 능력을 개별적으로 평가하여 약점을 파악하고 개선 방향을 제시합니다. 연구 결과 GPT-4o 모델은 추론 능력은 뛰어나지만 시각적 능력은 부족한 것으로 나타났으며, 연구진은 파국적 망각 문제를 해결하는 GDI 모델을 제시하였습니다. GDI-Bench와 GDI 모델은 모두 오픈소스로 공개될 예정입니다.

멀티모달 AI의 새로운 지평을 열다: GDI-Bench 탄생
최근 멀티모달 대규모 언어 모델(MLLM)의 급속한 발전은 문서 영역에 혁신적인 변화를 가져왔습니다. 하지만, 이러한 발전에도 불구하고 다양한 문서 특수 작업 전반에 걸쳐 이러한 모델의 능력을 평가할 수 있는 포괄적인 벤치마크는 부족했습니다. 기존 벤치마크들은 특정 모델의 약점을 파악하거나 체계적인 개선을 위한 지침을 제공하는 데 한계가 있었죠.
이러한 문제를 해결하기 위해 등장한 것이 바로 GDI-Bench입니다! Li Siqi 외 14명의 연구진이 개발한 이 벤치마크는 9가지 주요 시나리오와 19가지 문서 특수 작업에 걸쳐 1,900개 이상의 이미지를 포함하고 있습니다. 특히, 시각적 복잡성과 추론적 복잡성을 분리하여 난이도에 따라 등급을 매긴 작업을 구성함으로써 모델의 약점을 식별하고 최적화 방향을 제시하는 데 초점을 맞췄습니다.
GPT-4o: 추론은 뛰어나지만, 시각 능력은 아직...
연구진은 다양한 오픈소스 및 클로즈드소스 모델을 GDI-Bench에서 평가하고 시각 및 추론 영역에서 분리된 분석을 수행했습니다. 그 결과, 놀랍게도 GPT-4o 모델은 추론 작업에서 뛰어난 성능을 보였지만 시각적 능력에는 한계가 있음을 확인했습니다. 이는 모델 개발에 있어 시각적 이해 능력의 중요성을 다시 한번 일깨워주는 결과입니다.
파국적 망각? 이젠 걱정 끝! 지능 보존 훈련 전략 등장
GDI-Bench의 다양한 작업과 도메인을 효과적으로 처리하기 위해, 연구진은 지능 보존 훈련 전략을 통해 지도 학습 미세 조정(SFT) 과정에서 발생하는 파국적 망각 문제를 완화하는 GDI 모델을 제안했습니다. 이 모델은 기존 벤치마크와 GDI-Bench 모두에서 최첨단 성능을 달성했습니다.
더욱 고무적인 것은 GDI-Bench와 GDI 모델 모두 오픈소스로 공개될 예정이라는 점입니다. 이는 AI 연구 커뮤니티 전체에 큰 도움이 될 것이며, 앞으로 더욱 발전된 문서 지능 모델의 개발을 가속화할 것으로 기대됩니다. GDI-Bench는 단순한 벤치마크를 넘어, AI 모델의 발전 방향을 제시하는 중요한 이정표가 될 것입니다.
Reference
[arxiv] GDI-Bench: A Benchmark for General Document Intelligence with Vision and Reasoning Decoupling
Published: (Updated: )
Author: Siqi Li, Yufan Shen, Xiangnan Chen, Jiayi Chen, Hengwei Ju, Haodong Duan, Song Mao, Hongbin Zhou, Bo Zhang, Pinlong Cai, Licheng Wen, Botian Shi, Yong Liu, Xinyu Cai, Yu Qiao
http://arxiv.org/abs/2505.00063v1