세메발 2025 과제 5: 온톨로지 정렬을 활용한 주제 태깅 시스템 '호마' 등장!
본 기사는 SemEval-2025 Task 5에서 온톨로지 정렬 기술과 RAG 기법을 활용한 주제 태깅 시스템 '호마'에 대한 논문을 소개합니다. '호마'는 다국어 레코드 처리 능력을 보여주며, 디지털 도서관의 주제 태깅 자동화에 새로운 가능성을 제시합니다.

온톨로지 정렬로 주제 태깅 혁신을 이룬 '호마' 시스템
최근 발표된 논문에서 Hadi Bayrami Asl Tekanlou를 비롯한 연구팀은 SemEval-2025 Task 5: 주제 태깅 과제에 참여하여 '호마(Homa)'라는 혁신적인 시스템을 선보였습니다. 이 시스템은 TIBKAT의 기술 레코드에 GND(Gemeinsame Normdatei) 분류 체계를 자동으로 할당하는 것을 목표로 합니다. 기존의 주제 태깅 방식과 달리, 호마는 온톨로지 정렬 기술을 활용합니다.
이는 단순히 키워드 매칭을 넘어, 레코드와 GND 범주 간의 의미적 유사성을 기반으로 일치 여부를 판단하는 고차원적인 접근 방식입니다. 특히, 연구팀은 OntoAligner,라는 모듈식 온톨로지 정렬 툴킷을 활용하여 시스템을 구축했습니다. 여기에 더해, RAG(Retrieval-Augmented Generation) 기술을 통합하여 시스템의 정확도와 효율성을 더욱 향상시켰습니다.
핵심은 주제 태깅 문제를 정렬 작업으로 공식화한 점입니다. 레코드와 GND 범주 간의 의미적 연결을 찾는 과정을 통해, 보다 정확하고 의미 있는 주제 태깅이 가능해졌습니다. 특히, 호마는 다국어 레코드 처리에도 효과적임을 실험 결과를 통해 증명했습니다.
하지만 연구팀은 호마 시스템의 강점과 함께 한계점 또한 명확히 제시했습니다. 이를 통해 향후 연구 방향을 제시하며, 디지털 도서관 분야에서 온톨로지 정렬 기술의 잠재력을 더욱 탐구할 여지를 남겼습니다. 호마 시스템은 디지털 도서관의 주제 태깅 자동화에 새로운 가능성을 제시하며, 향후 기술 발전에 대한 기대감을 높입니다.
주요 내용 요약:
- 목표: TIBKAT 기술 레코드에 GND 분류 체계 자동 할당
- 핵심 기술: OntoAligner (온톨로지 정렬 툴킷), RAG (Retrieval-Augmented Generation)
- 방법: 주제 태깅을 레코드와 GND 범주 간의 정렬 작업으로 공식화
- 결과: 다국어 레코드 처리 효과, 시스템의 강점과 한계 제시
- 의미: 디지털 도서관 주제 태깅 자동화의 새로운 가능성 제시
Reference
[arxiv] Homa at SemEval-2025 Task 5: Aligning Librarian Records with OntoAligner for Subject Tagging
Published: (Updated: )
Author: Hadi Bayrami Asl Tekanlou, Jafar Razmara, Mahsa Sanaei, Mostafa Rahgouy, Hamed Babaei Giglou
http://arxiv.org/abs/2504.21474v1