QARI-OCR: 아랍어 문자 인식의 새로운 지평을 열다

Ahmed Wasfy 등 연구팀이 개발한 QARI-OCR은 다국어 대규모 언어 모델을 기반으로 한 아랍어 OCR 시스템으로, 합성 데이터를 이용한 미세 조정을 통해 최첨단 성능을 달성했습니다. 오픈소스로 공개되어 아랍어 처리 기술 발전에 크게 기여할 것으로 예상됩니다.

아랍어 OCR 기술의 혁신: QARI-OCR

아랍어의 독특한 필기체, 다양한 활자체, 그리고 diacritical marks(tashkeel)는 Optical Character Recognition (OCR) 기술 개발에 있어 난공불락의 과제였습니다. 하지만 최근, Ahmed Wasfy를 비롯한 연구팀이 QARI-OCR이라는 혁신적인 시스템을 통해 이러한 어려움을 극복하는데 성공했습니다.

QARI-OCR은 Qwen2-VL-2B-Instruct라는 다국어 대규모 언어 모델을 기반으로 합니다. 연구팀은 특수하게 제작된 합성 데이터셋을 사용하여 반복적인 미세 조정을 통해 모델을 개선했습니다. 그 결과, 최고 성능 모델인 QARI v0.2는 Word Error Rate (WER) 0.160, Character Error Rate (CER) 0.061, 그리고 BLEU score 0.737을 기록하며 기존 기술들을 압도하는 성능을 선보였습니다. 특히, tashkeel, 다양한 글꼴, 그리고 복잡한 문서 레이아웃에 대한 뛰어난 처리 능력과 저해상도 이미지에서도 우수한 성능을 보여주었습니다.

더 나아가, QARI v0.3에서는 구조적 문서 이해 및 필기체 인식 분야에서도 잠재력을 보여주고 있습니다. 이 연구는 아랍어 OCR 기술의 정확도와 효율성을 크게 향상시켰을 뿐만 아니라, 모든 모델과 데이터셋을 오픈소스로 공개하여 향후 연구 발전에 크게 기여할 것으로 기대됩니다.

주요 성과 요약:

QARI v0.2: WER 0.160, CER 0.061, BLEU score 0.737 달성 - 아랍어 OCR 분야 새로운 최고 성능 기록
다양한 글꼴, tashkeel, 복잡한 레이아웃, 저해상도 이미지에 대한 우수한 처리 능력
QARI v0.3: 구조적 문서 이해 및 필기체 인식 분야에서의 잠재력 확인
모든 모델 및 데이터셋 오픈소스 공개를 통한 연구 생태계 활성화

이 연구는 아랍어 처리 기술 발전에 큰 의미를 갖습니다. 앞으로 QARI-OCR은 아랍어 관련 다양한 분야, 예를 들어 문서 자동화, 기계 번역, 정보 검색 등에 널리 활용될 것으로 예상되며, 더욱 발전된 기술의 등장을 기대해볼 수 있습니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

Published: (Updated: )

Author: Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila

http://arxiv.org/abs/2506.02295v1