Leanabell-Prover: 정리 증명의 새로운 지평을 열다
본 기사는 장징위안 등 9명의 연구진이 발표한 논문 "Leanabell-Prover: Posttraining Scaling in Formal Reasoning"을 소개합니다. 연구진은 연속 학습과 강화 학습을 결합한 새로운 훈련 방식으로 자동 정리 증명(ATP) 모델의 성능을 크게 향상시켰으며, MiniF2F 데이터셋에서 59.8%의 통과율을 달성했습니다. 이는 ATP 분야의 획기적인 발전으로 평가되며, 향후 연구 결과에 대한 기대감을 높이고 있습니다.

최근 대규모 언어 모델(LLM)을 활용한 자동 정리 증명(ATP) 분야의 발전이 눈부십니다. 하지만 OpenAI의 O1/O3나 DeepSeek의 R1에서 보여준 것과 같은 사후 훈련 확장(posttraining scaling)의 혁신적인 발전이 ATP 분야에는 아직 적용되지 못했습니다. 장징위안, 왕치 등 9명의 연구진이 발표한 논문 "Leanabell-Prover: Posttraining Scaling in Formal Reasoning"은 이러한 한계를 극복하고자 야심찬 시도를 보여줍니다.
핵심은 '연속 학습'과 '강화 학습'의 결합
연구진은 기존 ATP 모델을 다양한 명제-증명 쌍과 인간의 추론 및 가설 개선 과정을 모방한 데이터를 결합한 하이브리드 데이터셋으로 연속 학습시켰습니다. 단순히 기존 데이터만 학습하는 것이 아니라, 인간의 사고 과정을 반영한 데이터를 추가함으로써 모델의 추론 능력을 향상시키려는 전략입니다. 여기에 더해, Lean 4 컴파일러가 제공하는 결과 보상을 활용한 강화 학습을 도입하여 모델의 성능을 더욱 높였습니다.
놀라운 성과: MiniF2F에서 59.8% 통과율 달성
이러한 혁신적인 훈련 방식을 통해 DeepSeek-Prover-v1.5와 Goedel-Prover 등 기존의 정리 증명기를 개선하여, 전체 증명 생성 분야에서 최첨단 성능을 달성했습니다. 특히 MiniF2F 데이터셋에서 무려 59.8%의 통과율(pass@32) 을 기록하며 기존 성능을 뛰어넘는 결과를 보여주었습니다.
앞으로의 전망: 지속적인 발전과 공개
이 연구는 현재 진행 중이며, 연구진은 지속적인 연구 결과 업데이트와 데이터 및 훈련 세부 정보 공개를 약속했습니다. Leanabell-Prover는 단순한 성능 향상을 넘어, 인공지능 기반의 정리 증명 시스템의 새로운 패러다임을 제시하는 중요한 이정표가 될 것으로 기대됩니다. 향후 발전에 대한 기대감이 더욱 커지고 있습니다. 이 연구는 ATP 분야의 획기적인 발전을 가져올 뿐만 아니라, 수학, 컴퓨터 과학 등 다양한 분야에서 정리 증명의 자동화를 가속화하는 데 크게 기여할 것으로 예상됩니다.
Reference
[arxiv] Leanabell-Prover: Posttraining Scaling in Formal Reasoning
Published: (Updated: )
Author: Jingyuan Zhang, Qi Wang, Xingguang Ji, Yahui Liu, Yang Yue, Fuzheng Zhang, Di Zhang, Guorui Zhou, Kun Gai
http://arxiv.org/abs/2504.06122v2