PP-DocLayout: 대규모 데이터 구축을 가속화하는 획기적인 문서 레이아웃 탐지 모델


Sun Ting 등 연구진이 개발한 PP-DocLayout은 빠르고 정확한 문서 레이아웃 탐지 모델로, 대규모 데이터 구축의 효율성을 극대화하고 문서 지능 및 다중 모드 AI 시스템의 발전에 크게 기여할 것으로 기대됩니다. 세 가지 크기의 모델을 제공하여 다양한 사용 환경에 유연하게 대응할 수 있다는 점이 특징입니다.

related iamge

PP-DocLayout: 문서 지능 시대의 새 장을 열다

Sun Ting, Cui Cheng, Du Yuning, Liu Yi 등 연구진이 개발한 PP-DocLayout은 문서 지능 분야의 혁신을 가져올 획기적인 문서 레이아웃 탐지 모델입니다. 문서의 제목, 텍스트 블록, 표, 수식 등 구조적 요소를 정확하게 탐지하고 위치를 파악하는 이 모델은 기존 모델들이 가진 일반화, 복잡한 레이아웃 처리, 대규모 데이터 처리 속도 문제를 효과적으로 해결합니다.

놀라운 성능과 다양한 선택지

PP-DocLayout은 다양한 문서 형식에서 23가지 유형의 레이아웃 영역을 고정확도로 인식합니다. 특히, 세 가지 크기의 모델을 제공하여 사용자의 필요에 맞춘 유연성을 제공합니다.

  • PP-DocLayout-L: RT-DETR-L 검출기를 기반으로 한 고정밀 모델. T4 GPU에서 페이지당 13.4ms의 처리 시간으로 90.4% [email protected]를 달성합니다. 정확성을 중시하는 사용자에게 최적입니다.
  • PP-DocLayout-M: 정확성과 속도의 균형을 잡은 모델. T4 GPU에서 페이지당 12.7ms의 처리 시간으로 75.2% [email protected]를 제공합니다. 균형 잡힌 성능을 원하는 사용자에게 적합합니다.
  • PP-DocLayout-S: 자원 제약 환경 및 실시간 응용 프로그램을 위해 설계된 고효율 모델. T4 GPU에서는 페이지당 8.1ms, CPU에서는 14.5ms의 처리 시간을 자랑합니다. 속도가 중요한 사용자에게 이상적입니다.

단순한 기술이 아닌, 새로운 가능성

PP-DocLayout은 단순히 문서 레이아웃 분석의 성능을 향상시킨 것 이상의 의미를 지닙니다. 고품질 학습 데이터를 효율적으로 구축할 수 있는 강력한 솔루션을 제공함으로써 문서 지능 및 다중 모드 AI 시스템의 발전에 크게 기여할 것으로 예상됩니다. Github(https://github.com/PaddlePaddle/PaddleX)에서 코드와 모델을 확인할 수 있습니다. 이를 통해 더욱 발전된 문서 처리 기술과 AI 응용 프로그램의 등장을 기대해 볼 수 있습니다. PP-DocLayout은 단순한 기술적 진보를 넘어, 문서 지능 시대를 앞당기는 중요한 이정표가 될 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction

Published:  (Updated: )

Author: Ting Sun, Cheng Cui, Yuning Du, Yi Liu

http://arxiv.org/abs/2503.17213v1