BLOCKIE: 시각 정보가 풍부한 문서에서의 정보 추출 혁신


인도 연구진이 개발한 BLOCKIE는 LLM 기반의 새로운 정보 추출 방식으로, 시각적으로 풍부한 문서를 의미 블록으로 나누어 처리하여 기존 방식보다 성능이 향상되었고, 다양한 문서 형식에 대한 적응력을 높였습니다. 이는 다양한 분야에서 문서 처리 방식에 혁신을 가져올 것으로 기대됩니다.

related iamge

인공지능(AI)이 시각적으로 풍부한 문서(VRD)에서 정보를 추출하는 방식에 혁신적인 변화가 일어나고 있습니다. 인도의 연구진(Aniket Bhattacharyya, Anurag Tripathi, Ujjal Das, Archan Karmakar, Amit Pathak, Maneesh Gupta)이 개발한 BLOCKIE는 기존 방식의 한계를 뛰어넘는 새로운 접근 방식을 제시합니다.

기존의 비-LLM(대규모 언어 모델) 기반 NLP(자연어 처리) 방식은 텍스트와 기하학적 정보를 함께 사용하여 모델을 훈련시켜 정보를 추출했습니다. 하지만 이러한 접근 방식은 추론 능력이 부족하고, 문서에 명시적으로 표현되지 않은 정보를 추론하지 못하며, 새로운 형식의 문서에 대한 일반화 능력이 떨어지는 단점을 가지고 있었습니다.

반면, 최근 등장한 생성형 LLM 기반 방식은 추론 능력이 뛰어나지만, 특히 이전에 보지 못한 문서 형식에서는 문서 레이아웃의 단서를 이해하는 데 어려움을 겪고, 다양한 VRD 벤치마크 데이터 세트에서 경쟁력 있는 성능을 보여주지 못했습니다.

BLOCKIE는 이러한 문제점을 해결하기 위해 VRD를 국지적이고 재사용 가능한 의미 있는 텍스트 세그먼트, 즉 “의미 블록(semantic blocks)”으로 구성하여 독립적으로 처리하는 혁신적인 방법을 제시합니다. 이를 통해 집중적이고 일반화된 추론이 가능해져 기존 방식의 한계를 극복합니다.

연구 결과, BLOCKIE는 공개된 VRD 벤치마크에서 F1 점수 기준으로 최첨단 기술보다 1~3% 높은 성능을 보였습니다. 또한 이전에 접해보지 못한 문서 형식에도 잘 적응하며, 문서에 명시적으로 표현되지 않은 정보도 정확하게 추출하는 능력을 보여주었습니다.

BLOCKIE는 단순한 정보 추출 도구를 넘어, 다양한 형태의 문서를 효율적으로 처리하고 정보를 추출하는 지능형 시스템으로 발전하는 중요한 이정표를 제시합니다. 앞으로 BLOCKIE의 발전과 응용은 다양한 분야에서 문서 처리 방식을 혁신적으로 변화시킬 것으로 기대됩니다. 특히, 복잡한 레이아웃을 가진 문서를 많이 다루는 금융, 의료, 법률 등의 분야에서 큰 영향을 미칠 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Information Extraction from Visually Rich Documents using LLM-based Organization of Documents into Independent Textual Segments

Published:  (Updated: )

Author: Aniket Bhattacharyya, Anurag Tripathi, Ujjal Das, Archan Karmakar, Amit Pathak, Maneesh Gupta

http://arxiv.org/abs/2505.13535v1