메뉴 OCR 및 번역 평가: MOTBench 벤치마크 소개
Zhanglin Wu 등 연구진이 개발한 MOTBench는 복잡한 레이아웃의 메뉴를 OCR 및 번역하는 LVLM의 성능을 평가하는 새로운 벤치마크입니다. 자동 및 수동 평가 간의 높은 일치율을 통해 신뢰성을 확보했으며, 향후 LVLM 발전에 중요한 기여를 할 것으로 기대됩니다.

AI가 메뉴를 이해하고 번역할 수 있을까요? MOTBench 벤치마크의 등장
최근 대규모 비전-언어 모델(LVLM)의 눈부신 발전은 문서 이해 분야, 특히 광학 문자 인식(OCR)과 다국어 번역 분야에 혁신을 불러왔습니다. 하지만 기존의 평가 방식, 예를 들어 널리 사용되는 OCRBench는 간단한 레이아웃의 단문 또는 장문 응답의 정확성에만 초점을 맞춰왔습니다. 복잡한 레이아웃을 가진 장문 텍스트에 대한 이해 능력은 매우 중요하지만, 상대적으로 간과되어 왔습니다.
이러한 문제점을 해결하기 위해, Zhanglin Wu를 비롯한 8명의 연구진은 메뉴 OCR 및 번역 벤치마크(MOTBench) 를 제안했습니다. MOTBench는 문화 간 소통에서 메뉴 번역의 중요성을 강조하는 특화된 평가 프레임워크입니다. 메뉴에 있는 각 요리의 이름, 가격, 단위 등을 정확하게 인식하고 번역하는 능력을 평가하여, LVLM의 시각적 이해 및 언어 처리 능력을 종합적으로 평가합니다.
MOTBench의 특징:
- 복잡한 레이아웃: 다양한 글꼴, 문화적 요소를 포함한 복잡한 메뉴 레이아웃을 다룹니다.
- 다국어 지원: 중국어와 영어 메뉴를 포함하여 다국어 지원을 제공합니다.
- 정밀한 수동 주석: 전문가에 의한 정확한 수동 주석을 통해 자동 평가의 신뢰성을 높였습니다.
- 자동 평가와 수동 평가의 높은 일치율: 실험 결과, 자동 평가 결과와 전문가의 수동 평가 결과가 매우 일치하는 것으로 나타났습니다.
- 최첨단 LVLM 평가: 다양한 최첨단 LVLM을 평가하여 강점과 약점을 분석하고, 향후 발전 방향을 제시합니다.
MOTBench는 GitHub (https://github.com/gitwzl/MOTBench)에서 공개적으로 이용 가능합니다. 이 벤치마크는 향후 LVLM 개발에 중요한 기준을 제시할 뿐만 아니라, AI가 실제 세계 문제를 해결하는 데 한 걸음 더 다가가도록 돕는 중요한 도구가 될 것입니다. 메뉴 번역을 넘어, 다양한 복잡한 문서 이해에 대한 연구와 개발을 가속화할 것으로 기대됩니다.
Reference
[arxiv] Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models
Published: (Updated: )
Author: Zhanglin Wu, Tengfei Song, Ning Xie, Weidong Zhang, Mengli Zhu, Shuang Wu, Shiliang Sun, Hao Yang
http://arxiv.org/abs/2504.13945v2