GDI-Bench: 시각 및 추론 분리 기반의 일반 문서 지능 벤치마크 등장


본 기사는 시각 및 추론 분리를 통해 문서 지능 모델의 성능을 종합적으로 평가하는 새로운 벤치마크 GDI-Bench와, 이를 기반으로 개발된 최첨단 모델 GDI-Model에 대한 소개입니다. GDI-Bench는 모델의 약점을 정확히 파악하고 개선 방향을 제시하여 문서 지능 분야의 발전에 기여할 것으로 기대됩니다.

related iamge

급성장하는 멀티모달 거대 언어 모델(MLLM) 시대의 도전과 혁신: GDI-Bench

최근 멀티모달 거대 언어 모델(MLLM)의 눈부신 발전은 문서 처리 분야에 혁명적인 변화를 일으키고 있습니다. 하지만 이러한 발전에도 불구하고, 다양한 문서 특화 작업에서 MLLM의 성능을 종합적으로 평가하고 개선 방향을 제시하는 벤치마크는 부족했습니다.

이러한 문제의식에서 출발하여, Siqi Li를 비롯한 16명의 연구진이 GDI-Bench를 개발했습니다. GDI-Bench는 9가지 주요 시나리오와 19가지 문서 특화 작업에 걸쳐 2,300개의 이미지를 포함하는 포괄적인 벤치마크입니다. 단순히 성능만을 평가하는 것을 넘어, 시각적 복잡성추론적 복잡성을 분리하여 과제의 난이도를 조절함으로써 모델의 특정 약점을 파악하고 개선 방향을 제시하는 데 초점을 맞추고 있습니다.

GDI-Bench의 혁신적인 접근 방식

GDI-Bench의 핵심은 바로 시각 및 추론 분리입니다. 기존 벤치마크들이 종종 시각적 요소와 추론적 요소를 혼합하여 평가함으로써 모델의 실제 약점을 파악하기 어려웠던 반면, GDI-Bench는 이 두 요소를 분리하여 각각에 대한 모델의 성능을 정확하게 평가할 수 있도록 설계되었습니다. 이를 통해 모델 개발자들은 각 영역의 성능을 개선하는 데 집중하여 더욱 효과적으로 모델을 개선할 수 있습니다. 이는 마치 수학 문제를 풀 때, 계산 능력과 논리적 사고력을 따로 평가하는 것과 같습니다.

GDI-Model: 촉발되는 망각 문제를 극복하다

연구진은 GDI-Bench의 다양한 작업과 영역을 다루기 위해 새로운 모델인 GDI-Model을 제안했습니다. GDI-Model은 지능 보존 훈련 전략을 통해 지도 학습 미세 조정(SFT) 과정에서 발생할 수 있는 촉발되는 망각 문제를 완화합니다. 이는 마치 사람이 새로운 것을 배우는 과정에서 기존 지식을 잊지 않도록 하는 것과 같습니다. GDI-Model은 기존 벤치마크와 GDI-Bench 모두에서 최첨단 성능을 달성했습니다.

향후 전망 및 활용

GDI-Bench와 GDI-Model은 모두 Hugging Face를 통해 공개될 예정입니다. 이를 통해 더 많은 연구자들이 이 벤치마크를 활용하여 다양한 문서 지능 모델을 평가하고 개선할 수 있을 것으로 기대됩니다. GDI-Bench는 MLLM의 발전과 함께 문서 지능 분야의 새로운 지평을 열 것으로 전망됩니다. 이러한 발전은 문서 자동화, 지능형 검색, 그리고 다양한 문서 관련 서비스의 질적 향상에 크게 기여할 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] GDI-Bench: A Benchmark for General Document Intelligence with Vision and Reasoning Decoupling

Published:  (Updated: )

Author: Siqi Li, Yufan Shen, Xiangnan Chen, Jiayi Chen, Hengwei Ju, Haodong Duan, Song Mao, Hongbin Zhou, Bo Zhang, Bin Fu, Pinlong Cai, Licheng Wen, Botian Shi, Yong Liu, Xinyu Cai, Yu Qiao

http://arxiv.org/abs/2505.00063v2