엑사원 3.5 기반 Text-to-SQL 생성의 사실 일관성 평가: LG전자 실제 데이터 분석
본 기사는 최제호 연구원의 논문을 바탕으로, LG전자의 실제 데이터를 활용하여 엑사원 3.5의 Text-to-SQL 생성 성능을 평가한 연구 결과를 소개합니다. 단순 작업에서는 높은 정확도를 보였지만, 복잡한 질문에서는 성능 저하를 보이며 LLM의 현실적 한계를 드러냈습니다. 이는 향후 LLM 기반 BI 시스템의 발전 방향을 제시하는 중요한 연구입니다.

엑사원 3.5, 비즈니스 인텔리전스의 미래를 엿보다: 그러나 과제는 남아있다.
최근 대규모 언어 모델(LLM)이 자연어를 SQL 질의로 변환하는 Text-to-SQL 생성 분야에서 주목받고 있습니다. 특히, 기업용으로 최적화된 이중 언어 LLM인 엑사원 3.5는 이러한 흐름의 중심에 있습니다. 그러나 최고이 기대에도 불구하고, 세상은 만만치 않습니다. 의미상의 착각, 구조적 오류, 그리고 도메인 특유의 평가 기준 부족으로 인해 실제 비즈니스 인텔리전스(BI) 환경에서의 적용은 여전히 제한적입니다.
LG전자의 실제 데이터: 현실 세계의 시험대
이러한 문제를 해결하기 위해, 최초로 LG전자의 내부 BigQuery 환경의 실제 판매 데이터를 기반으로 한 도메인 특화 벤치마크가 등장했습니다. 연구진인 최제호는 219개의 자연어 비즈니스 질문을 5가지 SQL 복잡도 수준으로 분류하여, 각 질문에 대한 정답 SQL 쿼리와 검증된 정답을 짝지어 제공했습니다. 이는 LLM의 성능을 실제 비즈니스 환경에 가깝게 평가하는 획기적인 시도입니다. 단순히 합계를 내는 간단한 작업에서는 엑사원 3.5가 93%의 정확도를 보였지만, 산술 추론이나 그룹화된 순위 매기기와 같은 복잡한 작업에서는 정확도가 급격히 떨어지는 현실을 보여주었습니다. (산술 추론: 4%, 그룹화 순위 매기기: 31%)
복잡한 질문에 대한 도전: 오류 분석과 미래 전망
연구 결과는 엑사원 3.5가 산술 논리 오류, 불완전한 필터링, 잘못된 그룹화 작업 등에서 어려움을 겪는다는 것을 보여줍니다. 이는 LLM이 비즈니스에 필수적인 환경에서 직면하는 한계를 명확히 드러냅니다. 연구진은 사실 일관성 검증 계층과 하이브리드 추론 접근 방식의 필요성을 강조하며, 재현 가능한 벤치마크와 평가 방법론을 제시했습니다. 이는 구조화된 기업 데이터 시스템에 대한 신뢰할 수 있는 자연어 인터페이스를 발전시키는 데 중요한 기여를 할 것으로 기대됩니다.
결론: 현실과 이상 사이
본 연구는 LLM의 잠재력과 함께 그 한계를 명확하게 보여줍니다. 엑사원 3.5는 단순한 작업에서는 뛰어난 성능을 보이지만, 복잡한 비즈니스 질문에 대해서는 여전히 개선의 여지가 많다는 것을 시사합니다. 이 연구는 더욱 정확하고 신뢰할 수 있는 LLM 기반 BI 시스템 개발을 위한 중요한 이정표가 될 것입니다. 앞으로 사실 일관성 검증 및 하이브리드 추론 기술의 발전이 LLM의 실제 적용을 확대하는데 중요한 역할을 할 것으로 예상됩니다.
Reference
[arxiv] Fact-Consistency Evaluation of Text-to-SQL Generation for Business Intelligence Using Exaone 3.5
Published: (Updated: )
Author: Jeho Choi
http://arxiv.org/abs/2505.00060v1