Reasoning-SQL: 강화학습으로 Text-to-SQL의 추론 능력 극대화
Mohammadreza Pourreza 등 연구팀이 제안한 Reasoning-SQL은 부분적 보상을 활용한 강화학습 기법을 통해 Text-to-SQL 과제에서 기존 최고 성능 모델을 능가하는 성과를 달성했습니다. 14B 매개변수 모델은 BIRD 벤치마크에서 o3-mini보다 4%, Gemini-1.5-Pro-002보다 3% 높은 정확도를 기록했습니다.

자연어를 SQL 쿼리로 변환하는 Text-to-SQL은 자연어 이해, 데이터베이스 스키마 이해, 정확한 SQL 쿼리 생성 등 여러 추론 집약적 하위 작업을 포함하는 어려운 과제입니다. 기존 접근 방식은 종종 유도적 편향이 있는 수작업 추론 경로에 의존하여 전반적인 효율성을 제한했습니다. DeepSeek R1과 OpenAI o1과 같은 추론 향상 모델의 최근 성공에 착안하여, 본 연구는 Text-to-SQL 과제에 맞게 특별히 고안된 새로운 부분적 보상 집합을 제안합니다.
이 보상 집합에는 스키마 연결, AI 피드백, n-gram 유사성 및 구문 검사가 포함되며, 강화 학습(RL)에서 흔히 발생하는 보상 희소성 문제를 명시적으로 해결하도록 설계되었습니다. 그룹 상대 정책 최적화(GRPO)를 활용하여, 본 접근 방식은 대규모 언어 모델(LLM)이 정확한 SQL 쿼리 생성에 필요한 고유한 추론 기술을 개발하도록 명시적으로 장려합니다.
다양한 크기의 모델을 사용하여, 제안된 보상을 사용한 RL 전용 훈련이 지도식 미세 조정(SFT)에 비해 일관되게 더 높은 정확도와 우수한 일반화 성능을 달성함을 보여줍니다. 놀랍게도, RL로 훈련된 14B 매개변수 모델은 o3-mini보다 4%, Gemini-1.5-Pro-002보다 3% 높은 정확도를 BIRD 벤치마크에서 달성하여 기존 최고 성능의 독점 모델들을 뛰어넘었습니다. 이는 Text-to-SQL 과제에서 정확도와 추론 능력을 모두 향상시키기 위한 제안된 부분적 보상을 사용한 RL 훈련 프레임워크의 효능을 강조합니다.
Mohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik" 연구팀은 부분적 보상을 활용한 강화학습 기법을 통해 Text-to-SQL 문제 해결에 새로운 가능성을 제시했습니다. 이 연구는 단순히 모델의 크기를 키우는 것보다, 효율적인 학습 전략과 보상 설계가 성능 향상에 얼마나 중요한지를 보여주는 중요한 결과입니다. 향후 더욱 복잡한 자연어 처리 과제에도 이러한 접근 방식이 적용될 수 있을 것으로 기대됩니다.
Reference
[arxiv] Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL
Published: (Updated: )
Author: Mohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik
http://arxiv.org/abs/2503.23157v1