OntoRAG: 비정형 지식베이스로부터 자동 온톨로지 생성을 통한 질의응답 성능 향상


OntoRAG은 LLM과 그래프 기반 방법론을 활용하여 비정형 데이터에서 자동으로 온톨로지를 생성하는 혁신적인 시스템으로, 기존 방식보다 향상된 질의응답 성능을 제공하며 의미 웹 발전에 기여할 것으로 기대됩니다.

related iamge

AI가 스스로 온톨로지를 만든다면? OntoRAG의 혁신

대규모 언어 모델(LLM) 기반 질의응답(QA) 시스템의 핵심은 바로 온톨로지입니다. 온톨로지는 지식베이스를 구조화하여 질문에 대한 정확하고 효율적인 답변을 가능하게 합니다. 하지만 기존의 온톨로지 생성은 도메인 전문가의 수작업에 의존하며, 시간이 많이 걸리고 오류가 발생하기 쉽다는 단점이 있었습니다. 특히 방대하고 역동적인 지식 영역에서는 더욱 그렇습니다.

이러한 문제를 해결하기 위해 등장한 것이 바로 OntoRAG입니다. Yash Tiwari, Owais Ahmad Lone, Mayukha Pal 등이 개발한 OntoRAG는 비정형 지식베이스로부터 자동으로 온톨로지를 생성하는 혁신적인 파이프라인입니다. 특히 전기 계전기 문서를 대상으로 연구되었는데, 웹 스크래핑, PDF 파싱, 하이브리드 청킹, 정보 추출, 지식 그래프 생성, 온톨로지 생성 등의 첨단 기술을 통합하여 비정형 데이터를 질의 가능한 온톨로지로 변환합니다.

OntoRAG의 핵심은 LLM과 그래프 기반 방법론의 활용에 있습니다. 이를 통해 기존의 Retrieval Augmented Generation (RAG) 및 GraphRAG 방식보다 훨씬 포괄적이고 다양한 답변을 생성할 수 있습니다. 실험 결과는 OntoRAG의 효과를 명확하게 보여줍니다. 벡터 기반 RAG에 비해 85%, GraphRAG 최적 설정에 비해 75%의 향상된 포괄성을 달성했습니다.

이는 단순한 기술적 발전을 넘어, 자동화된 온톨로지 생성을 통해 의미 웹(Semantic Web)의 비전을 한 단계 더 발전시키는 중요한 성과입니다. OntoRAG는 전문가의 수작업에 대한 의존도를 낮추고, 방대한 데이터를 효율적으로 활용할 수 있는 길을 열었습니다. 앞으로 다양한 분야에서 지식베이스 구축 및 질의응답 시스템의 발전에 크게 기여할 것으로 기대됩니다.


주요 기술: 웹 스크래핑, PDF 파싱, 하이브리드 청킹, 정보 추출, 지식 그래프 생성, 온톨로지 생성, LLM, 그래프 기반 방법론 주요 성과: 벡터 기반 RAG 대비 85%, GraphRAG 최적 설정 대비 75% 향상된 포괄성 달성 미래 전망: 다양한 분야에서 지식베이스 구축 및 질의응답 시스템 발전에 크게 기여할 것으로 예상


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] OntoRAG: Enhancing Question-Answering through Automated Ontology Derivation from Unstructured Knowledge Bases

Published:  (Updated: )

Author: Yash Tiwari, Owais Ahmad Lone, Mayukha Pal

http://arxiv.org/abs/2506.00664v1