인피니티 파서: 스캔 문서 파싱의 새로운 지평을 열다


중국과학원 자동화연구소 연구진이 개발한 인피니티 파서는 레이아웃 인식 강화학습 프레임워크 layoutRL과 방대한 데이터셋 Infinity-Doc-55K를 활용하여 스캔 문서 파싱의 정확도와 구조적 충실도를 획기적으로 향상시켰으며, 코드와 데이터셋을 공개하여 Document AI 분야 발전에 기여할 예정입니다.

related iamge

스캔 문서 파싱의 혁명: 인피니티 파서의 등장

스캔된 문서를 기계가 읽을 수 있는 형태로 변환하는 것은 Document AI 분야의 난제였습니다. 기존의 다단계 파이프라인 방식은 오류 전파와 다양한 레이아웃에 대한 적응력 부족이라는 치명적인 약점을 가지고 있었습니다. 하지만 이제, 중국과학원 자동화연구소(IA CAS) 연구진이 개발한 인피니티 파서(Infinity Parser) 가 이러한 문제점들을 혁신적으로 해결하며 등장했습니다.

레이아웃 인식 강화학습: layoutRL의 핵심

인피니티 파서는 layoutRL 이라는 첨단 강화학습 프레임워크를 기반으로 합니다. layoutRL은 정규화된 편집 거리, 단락 수 정확도, 읽기 순서 보존 등의 복합적인 보상을 최적화하여 모델이 레이아웃을 명시적으로 인식하도록 학습시킵니다. 단순히 정보를 추출하는 것을 넘어, 문서의 구조적 특징까지 정확하게 이해하는 것이 핵심입니다.

방대한 데이터셋: Infinity-Doc-55K의 위력

인피니티 파서의 성공에는 Infinity-Doc-55K 라는 새로운 데이터셋의 공헌이 큽니다. 5만 5천 개의 고품질 합성 스캔 문서 데이터와 전문가 검토를 거친 실제 문서 데이터를 결합한 이 데이터셋은 모델의 학습에 막대한 양의 다양한 데이터를 제공하여 성능 향상에 크게 기여했습니다. 이를 통해 인피니티 파서는 다양한 레이아웃과 스타일의 문서를 효과적으로 처리할 수 있게 되었습니다.

최첨단 성능: 영어 및 중국어 벤치마크 석권

인피니티 파서는 영어와 중국어 벤치마크에서 OCR, 표 및 수식 추출, 읽기 순서 감지 등 다양한 과제에서 기존 최고 성능을 뛰어넘는 결과를 보였습니다. 정확도와 구조적 충실도 면에서 전문적인 파이프라인 및 범용 비전-언어 모델들을 모두 앞질렀습니다. 이는 단순한 성능 향상을 넘어, 스캔 문서 파싱 기술의 새로운 기준을 제시하는 결과입니다.

공개된 코드와 데이터셋: 미래를 향한 발걸음

연구진은 인피니티 파서의 코드와 Infinity-Doc-55K 데이터셋을 공개하여, 강력한 문서 이해 기술 발전에 기여할 것을 약속했습니다. 이는 학계와 산업계 모두에게 긍정적인 영향을 미쳐, 향후 스캔 문서 처리 기술의 혁신적인 발전을 가속화할 것으로 기대됩니다. 인피니티 파서의 등장은 단순한 기술적 발전을 넘어, 보다 효율적이고 정확한 문서 처리 시스템 구축을 위한 중요한 이정표가 될 것입니다. 앞으로 인피니티 파서가 어떻게 활용될지, 그리고 어떤 새로운 가능성을 열어갈지 기대해 봅니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing

Published:  (Updated: )

Author: Baode Wang, Biao Wu, Weizhen Li, Meng Fang, Yanjie Liang, Zuming Huang, Haozhe Wang, Jun Huang, Ling Chen, Wei Chu, Yuan Qi

http://arxiv.org/abs/2506.03197v1