AnnoPage 데이터셋: 역사적 문서의 시각적 요소 분석의 새 지평

체코와 독일의 역사적 문서 7550페이지를 분석한 AnnoPage 데이터셋은 전문 사서들의 정확한 주석과 25개의 세분화된 비텍스트 요소 카테고리, 그리고 YOLO/DETR 기준 성능 제공을 통해 문서 레이아웃 분석 및 객체 탐지 연구에 새로운 가능성을 제시합니다. Zenodo를 통해 공개적으로 이용 가능합니다.

1485년부터 현재까지, 주로 체코어와 독일어로 작성된 7550페이지에 달하는 방대한 역사적 문서들을 분석한 AnnoPage 데이터셋이 공개되었습니다! Martin Kišš를 비롯한 다섯 명의 연구자들은 이 데이터셋을 통해 문서 레이아웃 분석 및 객체 탐지 분야에 새로운 가능성을 열었습니다. 🤔

이 데이터셋의 가장 큰 특징은 세분화된 25개의 비텍스트 요소 카테고리입니다. 단순히 이미지만 분류하는 것이 아니라, 지도, 장식 요소, 차트 등 다양한 시각적 요소들을 정밀하게 분류하여 분석의 정확도를 높였습니다. 각 페이지는 축 정렬 경계 상자(AABB)를 사용하여 주석 처리되어 있으며, 체코 이미지 문서 처리 방법론을 따랐습니다. 😲

데이터셋의 신뢰성을 더욱 높이는 것은 바로 전문 사서들의 참여입니다. 단순한 자동화된 주석이 아닌, 전문가의 숙련된 눈으로 정확하고 일관된 주석을 달았다는 점이 AnnoPage 데이터셋의 가장 큰 강점입니다. 이를 통해 연구 결과의 신뢰도를 극대화하고, 편향을 최소화했습니다. 👍

데이터셋은 개발 및 테스트 하위 집합으로 나뉘어 있으며, 테스트 집합은 범주 분포를 유지하도록 신중하게 선택되었습니다. 또한, 기존의 여러 역사적 문서 데이터셋에서 페이지들을 통합하여 데이터의 다양성과 연속성을 확보했습니다. 연구팀은 YOLO와 DETR 객체 검출기를 사용하여 기준 성능을 제시하여, 향후 연구자들에게 벤치마크를 제공합니다. 이는 AnnoPage 데이터셋이 단순한 데이터 공개를 넘어, 활발한 연구 활동을 위한 촉매제 역할을 할 것임을 시사합니다. 🚀

AnnoPage 데이터셋은 Zenodo (https://doi.org/10.5281/zenodo.12788419)에서 공개적으로 이용 가능하며, YOLO 형식의 정답 주석도 함께 제공됩니다. 역사적 문서 분석에 관심 있는 연구자들에게 귀중한 자원이 될 것으로 기대됩니다. ✨

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] AnnoPage Dataset: Dataset of Non-Textual Elements in Documents with Fine-Grained Categorization

Published: (Updated: )

Author: Martin Kišš, Michal Hradiš, Martina Dvořáková, Václav Jiroušek, Filip Kersch

http://arxiv.org/abs/2503.22526v1