SQL-Factory: 고품질 대규모 SQL 생성을 위한 다중 에이전트 프레임워크
본 기사는 Li Jiahui 등 연구진이 개발한 다중 에이전트 프레임워크 SQL-Factory에 대해 소개합니다. SQL-Factory는 기존의 한계를 극복하고 고품질 대규모 SQL 데이터셋 생성 문제를 해결하는 혁신적인 솔루션으로, 다양성, 확장성, 비용 효율성을 모두 만족시키는 결과를 보여줍니다.

인공지능과 데이터베이스의 만남: SQL-Factory 이야기
지능형 데이터베이스 시대, 고품질 SQL 데이터셋 확보는 필수적입니다. Text-to-SQL과 같은 기술은 SQL 쿼리와 자연어 질문을 훈련 데이터로 사용하지만, 수동 주석 작업의 높은 비용 때문에 대규모 데이터셋 구축이 어려운 현실입니다. 기존의 자동 SQL 생성 방법들은 다양성과 비용 효율성을 동시에 확보하는 데 어려움을 겪고 있으며, 스키마의 복잡성을 고려하지 않아 구조적으로 풍부한 테이블을 충분히 활용하지 못하는 한계도 가지고 있습니다.
Li Jiahui 등 연구진이 제시한 SQL-Factory는 이러한 문제를 해결하기 위해 등장한 혁신적인 솔루션입니다. 다중 에이전트 프레임워크 기반의 SQL-Factory는 SQL 생성 과정을 세 개의 협업 팀으로 나눕니다.
- 생성 팀 (Generation Team): 대규모 언어 모델을 활용하여 다양한 쿼리 구조를 탐색합니다. 마치 숙련된 데이터베이스 전문가가 다양한 질문 유형을 고려하는 것과 같습니다.
- 확장 팀 (Expansion Team): 가볍고 효율적인 로컬 모델을 통해 유망한 패턴을 확장합니다. 생성 팀이 찾은 좋은 아이디어를 효과적으로 확대 재생산하는 역할을 수행합니다.
- 관리 팀 (Management Team): 스키마 적용 범위와 실시간 쿼리 품질을 기반으로 생성 과정을 적응적으로 예측하고 평가합니다. 전체 과정의 효율성을 관리하고 최적화하는 역할입니다.
이러한 모듈형 프레임워크는 다양성, 확장성, 생성 비용 간의 균형을 보장합니다. SQL-Factory는 널리 사용되는 4개의 벤치마크에 적용되어 200달러 미만의 API 비용으로 30만 개 이상의 실행 가능하고 광범위하게 분포된 SQL 쿼리를 생성하는 놀라운 성과를 달성했습니다. 생성된 쿼리는 기존 방법보다 높은 다양성을 보이며, 다양한 downstream task에서 모델 성능을 크게 향상시키는 것으로 나타났습니다.
SQL-Factory는 단순한 SQL 생성 도구를 넘어, 인공지능 기반의 지능형 데이터베이스 시스템 구축을 위한 중요한 이정표가 될 것으로 기대됩니다. 대규모 고품질 데이터셋 확보의 어려움을 극복하고, 다양한 응용 분야에서 AI 기반 데이터베이스 기술의 발전을 가속화할 것입니다. 하지만, 생성된 쿼리의 안전성과 신뢰성에 대한 지속적인 연구가 필요하며, 실제 데이터베이스 환경에서의 적용 및 확장성에 대한 추가적인 검증도 중요한 과제입니다.
Reference
[arxiv] SQL-Factory: A Multi-Agent Framework for High-Quality and Large-Scale SQL Generation
Published: (Updated: )
Author: Jiahui Li, Tongwang Wu, Yuren Mao, Yunjun Gao, Yajie Feng, Huaizhong Liu
http://arxiv.org/abs/2504.14837v1