혁신적인 지식 기반 구축: Text-to-SQL의 정확성을 높이다
본 연구는 대규모 언어 모델(LLM) 기반 Text-to-SQL의 정확도 향상을 위해 포괄적인 지식 기반을 구축하는 새로운 방법을 제시합니다. 다양한 데이터셋과 도메인에서의 검증 결과, 기존 방식보다 우수한 성능을 보이며, 특히 중복되지 않는 데이터베이스 시나리오에서 효과가 뛰어납니다.

혁신적인 지식 기반 구축: Text-to-SQL의 정확성을 높이다
자연어 질의를 SQL 문으로 변환하는 Text-to-SQL은 누구나 쉽게 데이터베이스에서 정보를 검색할 수 있도록 하는 실용적인 기술입니다. 최근에는 대규모 언어 모델(LLM)의 뛰어난 자연어 이해 및 SQL 코드 생성 능력을 활용한 많은 접근 방식들이 등장했습니다.
하지만 LLM의 매개변수화된 지식만으로는 다양하고 도메인 특화된 질의, 특히 여러 데이터베이스 스키마에 대한 기반 지식을 필요로 하는 질의들을 모두 다루기에는 한계가 있습니다. 이로 인해 생성된 SQL의 정확도가 떨어지는 경우가 많았죠.
이러한 문제를 해결하기 위해 Jinheon Baek 등 연구진이 제시한 혁신적인 해결책은 바로 Text-to-SQL을 위한 지식 기반 구축입니다. 이는 질의에 필요한 지식을 검색하고 생성하는 기본적인 지식 원천이 되는 셈입니다.
기존의 수동 주석 방식이나 질의당 몇 개의 지식만 생성하는 방식과는 달리, 이 연구에서는 모든 질문과 관련된 데이터베이스 스키마, 그리고 그에 대한 관련 지식을 결합하여 포괄적인 지식 기반을 구축했습니다. 이는 서로 다른 데이터셋과 도메인에서 나온 새로운 데이터베이스에도 재사용 가능하다는 장점을 가집니다.
연구진은 여러 Text-to-SQL 데이터셋에서, 데이터베이스가 중복되는 경우와 중복되지 않는 경우 모두를 고려하여 이 접근 방식을 검증했습니다. 그 결과, 관련 기준 모델들에 비해 상당히 향상된 성능을 보였습니다. 특히 중복되지 않는 데이터베이스 시나리오에서 그 효과가 더욱 뚜렷하게 나타났습니다. 이 연구는 LLM 기반 Text-to-SQL의 정확도 향상에 중요한 돌파구를 마련했을 뿐만 아니라, 더욱 폭넓은 응용 분야에 활용될 수 있는 잠재력을 지니고 있습니다.
이 연구는 LLM의 한계를 극복하고 Text-to-SQL의 실용성을 한층 더 높인 획기적인 성과로 평가할 수 있으며, 앞으로 AI 기반 데이터베이스 질의 시스템 발전에 큰 영향을 미칠 것으로 예상됩니다.
Reference
[arxiv] Knowledge Base Construction for Knowledge-Augmented Text-to-SQL
Published: (Updated: )
Author: Jinheon Baek, Horst Samulowitz, Oktie Hassanzadeh, Dharmashankar Subramanian, Sola Shirai, Alfio Gliozzo, Debarun Bhattacharjya
http://arxiv.org/abs/2505.22096v1