딥러닝으로 엔지니어링 도면의 정보 추출 자동화: 정밀 제조의 미래를 여는 혁신
본 연구는 YOLOv11과 Donut 모델을 결합한 딥러닝 기반 자동화 시스템을 통해 엔지니어링 도면으로부터 정보를 정확하고 효율적으로 추출하는 기술을 제시합니다. 단일 모델 기반의 파인튜닝 전략을 통해 높은 정밀도와 재현율을 달성하였으며, 정밀 제조 산업의 효율성을 크게 향상시킬 수 있는 잠재력을 보여줍니다.

정밀 제조 산업에서 엔지니어링 도면으로부터 중요 정보를 추출하는 작업은 매우 중요하지만, 기존의 수작업 방식은 시간이 오래 걸리고 오류 발생 가능성이 높다는 문제점을 안고 있습니다. 이러한 어려움을 해결하기 위해, Muhammad Tayyab Khan을 비롯한 연구팀은 혁신적인 딥러닝 기반 자동화 시스템을 개발했습니다.
이 시스템의 핵심은 YOLOv11과 Donut이라는 두 가지 강력한 딥러닝 모델의 결합입니다. YOLOv11은 도면 내의 GD&T, 치수, 재료 등 9가지 주요 정보 카테고리를 정확하게 식별하고 위치를 파악하는 역할을 합니다. 마치 숙련된 엔지니어의 눈처럼 도면을 분석하는 것이죠. YOLOv11이 찾아낸 정보는 Donut이라는 문서 파싱 모델에 입력되어 구조화된 JSON 형태의 데이터로 변환됩니다. 이 과정에서 방향 경계 상자(OBB) 탐지 기술이 도입되어, 겹쳐진 기호나 복잡한 레이아웃에서도 정보를 정확하게 추출할 수 있다는 점이 흥미롭습니다.
연구팀은 자체적으로 구축한 대규모 도면 데이터셋을 사용하여 모델을 학습시켰습니다. 특히, 단일 모델과 카테고리별 모델 두 가지 파인튜닝 전략을 비교 분석한 결과는 주목할 만 합니다. 결과는 놀라웠습니다. 단일 모델이 모든 평가 지표(정밀도, 재현율, F1 스코어)에서 카테고리별 모델을 압도적으로 앞섰습니다. 특히 GD&T의 정밀도는 94.77%, 대부분의 카테고리에서 재현율은 100%에 달했습니다. 이는 시스템의 정확성과 효율성을 명확하게 보여주는 결과입니다. 또한 환각(hallucination, 잘못된 정보 생성) 비율 또한 5.23%로 매우 낮았습니다.
이 연구는 단순한 기술적 진보를 넘어, 정밀 제조 산업의 생산성 향상과 경쟁력 강화에 크게 기여할 것으로 예상됩니다. 시간과 비용을 절감하고 오류를 최소화함으로써, 더욱 정확하고 효율적인 제품 생산이 가능해질 것입니다. 앞으로 이 기술이 다양한 산업 분야로 확장되어 활용될 가능성은 무궁무진합니다. 이 연구는 우리에게 AI 기반 자동화 기술이 가져올 밝은 미래를 보여주는 중요한 이정표입니다.
Reference
[arxiv] Automated Parsing of Engineering Drawings for Structured Information Extraction Using a Fine-tuned Document Understanding Transformer
Published: (Updated: )
Author: Muhammad Tayyab Khan, Zane Yong, Lequn Chen, Jun Ming Tan, Wenhe Feng, Seung Ki Moon
http://arxiv.org/abs/2505.01530v1