Leanabell-Prover: 정리 증명의 새로운 지평을 열다


본 기사는 장징위안 등 9명의 연구진이 발표한 논문 "Leanabell-Prover: Posttraining Scaling in Formal Reasoning"을 소개합니다. 연구진은 연속 학습과 강화 학습을 결합한 새로운 훈련 방식으로 자동 정리 증명(ATP) 모델의 성능을 크게 향상시켰으며, MiniF2F 데이터셋에서 59.8%의 통과율을 달성했습니다. 이는 ATP 분야의 획기적인 발전으로 평가되며, 향후 연구 결과에 대한 기대감을 높이고 있습니다.

related iamge

최근 대규모 언어 모델(LLM)을 활용한 자동 정리 증명(ATP) 분야의 발전이 눈부십니다. 하지만 OpenAI의 O1/O3나 DeepSeek의 R1에서 보여준 것과 같은 사후 훈련 확장(posttraining scaling)의 혁신적인 발전이 ATP 분야에는 아직 적용되지 못했습니다. 장징위안, 왕치 등 9명의 연구진이 발표한 논문 "Leanabell-Prover: Posttraining Scaling in Formal Reasoning"은 이러한 한계를 극복하고자 야심찬 시도를 보여줍니다.

핵심은 '연속 학습'과 '강화 학습'의 결합

연구진은 기존 ATP 모델을 다양한 명제-증명 쌍과 인간의 추론 및 가설 개선 과정을 모방한 데이터를 결합한 하이브리드 데이터셋으로 연속 학습시켰습니다. 단순히 기존 데이터만 학습하는 것이 아니라, 인간의 사고 과정을 반영한 데이터를 추가함으로써 모델의 추론 능력을 향상시키려는 전략입니다. 여기에 더해, Lean 4 컴파일러가 제공하는 결과 보상을 활용한 강화 학습을 도입하여 모델의 성능을 더욱 높였습니다.

놀라운 성과: MiniF2F에서 59.8% 통과율 달성

이러한 혁신적인 훈련 방식을 통해 DeepSeek-Prover-v1.5와 Goedel-Prover 등 기존의 정리 증명기를 개선하여, 전체 증명 생성 분야에서 최첨단 성능을 달성했습니다. 특히 MiniF2F 데이터셋에서 무려 59.8%의 통과율(pass@32) 을 기록하며 기존 성능을 뛰어넘는 결과를 보여주었습니다.

앞으로의 전망: 지속적인 발전과 공개

이 연구는 현재 진행 중이며, 연구진은 지속적인 연구 결과 업데이트와 데이터 및 훈련 세부 정보 공개를 약속했습니다. Leanabell-Prover는 단순한 성능 향상을 넘어, 인공지능 기반의 정리 증명 시스템의 새로운 패러다임을 제시하는 중요한 이정표가 될 것으로 기대됩니다. 향후 발전에 대한 기대감이 더욱 커지고 있습니다. 이 연구는 ATP 분야의 획기적인 발전을 가져올 뿐만 아니라, 수학, 컴퓨터 과학 등 다양한 분야에서 정리 증명의 자동화를 가속화하는 데 크게 기여할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Leanabell-Prover: Posttraining Scaling in Formal Reasoning

Published:  (Updated: )

Author: Jingyuan Zhang, Qi Wang, Xingguang Ji, Yahui Liu, Yang Yue, Fuzheng Zhang, Di Zhang, Guorui Zhou, Kun Gai

http://arxiv.org/abs/2504.06122v2