파슈토어 OCR의 혁신: 거대 다중모달 모델의 가능성을 탐구하다
본 기사는 파슈토어 OCR 분야의 혁신적인 연구 결과를 소개합니다. 연구진은 100만 개 이미지로 구성된 PsOCR 데이터셋을 개발하여 다양한 모델의 성능을 비교 분석하였으며, Gemini와 Qwen-7B 모델의 우수한 성능을 확인했습니다. PsOCR 데이터셋의 공개를 통해 파슈토어를 포함한 저자원 언어의 OCR 기술 발전에 크게 기여할 것으로 예상됩니다.

파슈토어(Pashto)는 특유의 필기체와 부족한 데이터셋으로 인해 자연어 처리(NLP) 분야에서 많은 어려움을 겪는 언어입니다. 하지만 최근, 이러한 난관을 극복할 획기적인 연구 결과가 발표되었습니다. Ijazul Haq, Yingjie Zhang, Irfan Ali Khan 등 연구진은 PsOCR: 낮은 자원을 가진 파슈토어의 광학 문자 인식을 위한 거대 다중모달 모델 벤치마킹이라는 논문을 통해, 파슈토어 OCR에서 거대 다중모달 모델(LMMs)의 성능을 평가한 결과를 공개했습니다.
100만 개 이미지의 PsOCR 데이터셋: 한계를 넘어서
연구진은 파슈토어 OCR의 한계를 극복하기 위해 100만 개의 이미지로 구성된 합성 데이터셋 PsOCR을 개발했습니다. 단어, 줄, 문서 단계별 경계 상자 주석이 포함된 이 데이터셋은 다양한 아키텍처(CNN, Transformer 등) 기반 모델의 학습 및 평가에 적합하게 설계되었습니다. 1,000개의 고유한 글꼴, 다양한 색상, 이미지 크기 및 레이아웃을 포함하여 실제 환경을 반영하고 있습니다. 이는 기존 데이터 부족 문제를 해결하는 중요한 발걸음입니다.
모델 성능 비교: Gemini와 Qwen-7B의 약진
연구진은 PsOCR의 1만 개 이미지로 구성된 벤치마크 하위 집합을 사용하여 7개의 오픈소스 모델(Janus, InternVL, MiniCPM, Florence, Qwen 3B 및 7B)과 4개의 상업 모델(GPT-4o, Gemini, Claude, Grok)의 성능을 평가했습니다. 그 결과, 상업 모델 중 Gemini가 최고 성능을 기록했으며, 놀랍게도 오픈소스 모델 중에서는 Qwen-7B가 가장 뛰어난 성능을 보였습니다. 이는 오픈소스 모델의 발전 가능성을 보여주는 중요한 결과입니다.
파슈토어 OCR을 넘어: 다른 언어로의 확장 가능성
PsOCR 데이터셋은 Github(https://github.com/zirak-ai/PashtoOCR)에서 공개되어, 파슈토어뿐만 아니라 아랍어, 페르시아어, 우르두어 등 유사한 필기체를 가진 언어의 OCR 연구에도 크게 기여할 것으로 기대됩니다. 이번 연구는 단순한 기술적 성과를 넘어, 저자원 언어에 대한 기술적 접근성을 높이는 데 중요한 역할을 할 것입니다. 앞으로 더욱 발전된 기술과 데이터셋을 통해 다양한 언어의 OCR 기술이 발전하고, 더 많은 사람들이 정보 접근의 혜택을 누릴 수 있기를 기대합니다.
Reference
[arxiv] PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language
Published: (Updated: )
Author: Ijazul Haq, Yingjie Zhang, Irfan Ali Khan
http://arxiv.org/abs/2505.10055v1