Reasoning-SQL: 강화학습으로 Text-to-SQL의 추론 능력 극대화
본 연구는 Text-to-SQL 과제에서 강화 학습과 부분 보상 기법을 사용하여 LLM의 추론 능력을 향상시키는 새로운 방법을 제시합니다. 실험 결과, 제안된 방법은 기존 지도 학습 방식보다 높은 정확도와 일반화 성능을 달성했으며, 더 작은 모델에서도 더 큰 상용 모델을 능가하는 성능을 보였습니다.

자연어를 SQL 쿼리로 변환하는 Text-to-SQL 과제는 자연어 이해, 데이터베이스 스키마 이해, 정확한 SQL 쿼리 생성 등 여러 추론 집약적 하위 작업을 포함하는 어려운 과제입니다. 기존 접근 방식은 종종 유도적 편향을 가진 수작업 추론 경로에 의존하여 전반적인 효율성을 제한하는 경향이 있었습니다.
Mohammadreza Pourreza를 비롯한 연구팀은 DeepSeek R1과 OpenAI o1과 같은 추론 향상 모델의 성공에 착안하여, Text-to-SQL 과제에 특화된 새로운 부분 보상 집합을 제안했습니다. 이 보상 집합은 스키마 연결, AI 피드백, n-gram 유사도, 구문 검사를 포함하며, 강화 학습(RL)에서 흔히 발생하는 보상 희소성 문제를 명시적으로 해결하도록 설계되었습니다.
연구팀은 그룹 상대 정책 최적화(GRPO)를 활용하여 LLM이 정확한 SQL 쿼리 생성에 필요한 고유한 추론 기술을 개발하도록 명시적으로 장려했습니다. 다양한 크기의 모델을 사용하여 제안된 보상을 사용한 RL 전용 학습이 지도 학습 미세 조정(SFT)에 비해 일관되게 더 높은 정확도와 우수한 일반화 성능을 달성함을 입증했습니다.
특히, RL로 학습된 140억 매개변수 모델은 o3-mini보다 4%, Gemini-1.5-Pro-002보다 3% 더 높은 정확도를 BIRD 벤치마크에서 달성했습니다. 이는 Text-to-SQL 과제에서 정확도와 추론 능력을 향상시키기 위한 부분 보상을 사용한 RL 학습 프레임워크의 효과를 강조하는 결과입니다. 이는 단순히 모델의 크기만 증가시키는 것이 아니라, 적절한 강화 학습 기법을 통해 LLM의 추론 능력을 효과적으로 향상시킬 수 있음을 보여주는 중요한 발견입니다. 앞으로 Text-to-SQL뿐 아니라 다양한 추론 기반 과제에서 RL과 부분 보상 기법의 활용이 더욱 확대될 것으로 예상됩니다.
핵심: 본 연구는 기존의 대규모 모델보다 작은 모델에서 강화학습과 부분보상 기법을 통해 더 높은 성능을 달성하여, 단순히 모델 크기를 키우는 것보다 효율적인 방법을 제시하였습니다. 이는 향후 AI 모델 개발에 있어 중요한 시사점을 제공합니다.
Reference
[arxiv] Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL
Published: (Updated: )
Author: Mohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik
http://arxiv.org/abs/2503.23157v2