텍스트가 풍부한 이미지의 시각적 텍스트 근거 지정: 다중 모달 대규모 언어 모델의 새로운 도전과 해결책
본 연구는 텍스트가 풍부한 이미지에서의 시각적 텍스트 근거 지정이라는 난제를 해결하기 위해 새로운 벤치마크 TRIG와 두 가지 효과적인 방법을 제시합니다. MLLM의 공간 추론 및 근거 지정 능력 향상에 기여하는 중요한 연구입니다.

텍스트가 풍부한 이미지에서의 난제: 시각적 텍스트 근거 지정
최근 다중 모달 대규모 언어 모델(MLLM)의 발전에도 불구하고, 특히 문서 이미지와 같은 텍스트가 풍부한 이미지에서의 시각적 텍스트 근거 지정은 여전히 풀리지 않은 난제로 남아 있습니다. 스캔된 서류나 인포그래픽과 같은 문서 이미지는 복잡한 레이아웃과 방대한 텍스트로 인해 기존 모델들에게 상당한 어려움을 안겨줍니다. 기존 벤치마크는 주로 자연 이미지에 초점을 맞춰, 이러한 문서 이미지의 특수한 어려움을 충분히 반영하지 못하고 있습니다.
TRIG: 새로운 벤치마크와 합성 데이터셋
Ming Li 등 연구진은 이러한 문제를 해결하기 위해, TRIG (Text-Rich Image Grounding) 이라는 새로운 과제와 함께 벤치마크 및 MLLM의 성능 향상을 위한 새로운 지시 데이터셋을 제안했습니다. 연구진은 OCR-LLM-인간 상호작용 파이프라인을 통해 800개의 수동 주석 질의응답 쌍을 포함하는 벤치마크 데이터셋을 구축하고, 4개의 다양한 데이터셋을 기반으로 90K개의 대규모 합성 데이터셋을 만들었습니다.
다양한 MLLM을 TRIG 벤치마크로 평가한 결과, 텍스트가 풍부한 이미지에서의 근거 지정 능력에 상당한 한계가 있음을 확인했습니다. 이는 MLLM이 문서 이미지의 복잡한 시각적 및 언어적 정보를 효과적으로 통합하지 못함을 시사합니다.
효과적인 해결책: 두 가지 TRIG 방법
연구진은 이러한 한계를 극복하기 위해, 두 가지 간단하면서도 효과적인 TRIG 방법을 제안했습니다. 첫 번째는 일반 지시 조정 기반 방법이고, 두 번째는 플러그 앤 플레이 효율적 임베딩 기반 방법입니다. 합성 데이터셋으로 MLLM을 미세 조정한 결과, 공간 추론 및 근거 지정 능력이 크게 향상되는 것을 확인했습니다.
미래 전망
TRIG 벤치마크와 제안된 방법들은 MLLM의 시각적 텍스트 근거 지정 능력 향상에 중요한 기여를 할 것으로 기대됩니다. 향후 연구에서는 더욱 다양하고 복잡한 문서 이미지에 대한 연구가 필요하며, 이를 통해 MLLM의 실제 응용 가능성을 높일 수 있을 것으로 예상됩니다. 이 연구는 단순히 기술적 발전을 넘어, 인간과 컴퓨터의 상호작용을 더욱 자연스럽고 효율적으로 만들기 위한 중요한 발걸음입니다. 🤔
Reference
[arxiv] Towards Visual Text Grounding of Multimodal Large Language Model
Published: (Updated: )
Author: Ming Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun
http://arxiv.org/abs/2504.04974v1