Distill-C: LLM 기반 NL2SQL의 새로운 지평을 열다
Distill-C는 대규모 LLM을 활용하여 고품질 합성 데이터를 생성하고, 이를 통해 소규모 LLM의 성능을 향상시키는 NL2SQL 프레임워크입니다. 다양한 벤치마크에서 기존 모델 대비 36%의 정확도 향상을 달성하며, 실제 고객 데이터에서도 22.6%의 성능 개선을 보였습니다.

LLM 시대의 NL2SQL: 효율성과 성능, 두 마리 토끼를 잡다
최근 기업 애플리케이션에서 대규모 언어 모델(LLM)의 도입이 급증하면서 자연어를 SQL로 변환하는 NL2SQL(Natural Language to SQL) 솔루션에 대한 관심이 높아지고 있습니다. 하지만 높은 성능과 효율성을 동시에 달성하는 것은 쉽지 않은 과제입니다. 특히, 도메인 및 고객별 요구사항까지 고려해야 한다면 더욱 복잡해집니다.
이러한 문제를 해결하기 위해 등장한 것이 바로 Distill-C입니다. Distill-C는 Cong Duy Vu Hoang 등 13명의 연구진이 개발한, NL2SQL 작업에 맞춤화된 증류 기반 커스터마이징 프레임워크입니다. 이 프레임워크는 핵심적으로 다음과 같은 두 가지 혁신적인 아이디어를 바탕으로 합니다.
- 대규모 LLM을 활용한 고품질 합성 데이터 생성: Distill-C는 강력하고 확장 가능한 파이프라인을 통해 대규모 LLM을 활용하여 고품질의 합성 데이터를 생성합니다. 이는 마치 노련한 선생님(대규모 LLM)이 제자(소규모 LLM)를 가르치는 것과 같습니다.
- 소규모 LLM의 미세 조정: 생성된 합성 데이터를 사용하여 소규모의 오픈소스 LLM을 미세 조정함으로써, 훨씬 더 큰 규모의 LLM과 경쟁하거나 능가하는 성능을 달성합니다. 이는 비용 효율적인 측면에서 큰 장점입니다.
실험 결과는 놀랍습니다. 여러 까다로운 벤치마크에서 평가한 결과, Distill-C는 세 가지 서로 다른 LLM 계열의 기본 모델에 비해 실행 정확도가 평균 36% 향상되었습니다. 뿐만 아니라, 세 가지 내부 고객 벤치마크에서도 기본 모델보다 22.6% 향상된 성능을 보였습니다. 이는 Distill-C가 경량이면서도 강력한 NL2SQL 모델을 배포하기 위한 효과적이고 고성능이며 일반화 가능한 접근 방식임을 입증합니다.
결론적으로, Distill-C는 뛰어난 정확도를 유지하면서 낮은 계산 비용을 유지하는 경제적이고 효율적인 솔루션입니다. 이 연구는 LLM 기반 NL2SQL 분야에 새로운 이정표를 세우며, 앞으로의 발전에 중요한 영향을 미칠 것으로 기대됩니다. 비용 효율성과 성능을 동시에 추구하는 기업들에게 Distill-C는 매력적인 대안이 될 것입니다.
Reference
[arxiv] Distill-C: Enhanced NL2SQL via Distilled Customization with LLMs
Published: (Updated: )
Author: Cong Duy Vu Hoang, Gioacchino Tangari, Clemence Lanfranchi, Dalu Guo, Paul Cayet, Steve Siu, Don Dharmasiri, Yuan-Fang Li, Long Duong, Damien Hilloulin, Rhicheek Patra, Sungpack Hong, Hassan Chafi
http://arxiv.org/abs/2504.00048v1