Leanabell-Prover: 형식적 추론 분야의 새로운 지평을 열다


Jingyuan Zhang 등 연구진의 Leanabell-Prover는 연속 학습과 강화 학습을 통해 기존 자동 정리 증명(ATP) 모델의 성능을 획기적으로 향상시켜 MiniF2F 데이터셋에서 59.8%의 통과율을 달성했습니다. 이는 형식적 추론 분야의 혁신적인 발전이며, 향후 연구의 지속적인 발전과 데이터 공개를 통해 더욱 큰 발전을 기대하게 합니다.

related iamge

Leanabell-Prover: 형식적 추론 분야의 혁신

최근 대규모 언어 모델(LLM)을 활용한 자동 정리 증명(ATP) 분야의 발전이 눈부시지만, OpenAI의 O1/O3나 DeepSeek의 R1에서 보여준 것과 같은 사후 훈련 확장(posttraining scaling) 이 ATP 분야에는 아직 적용되지 않았습니다. Jingyuan Zhang 등 연구진이 발표한 논문 "Leanabell-Prover: Posttraining Scaling in Formal Reasoning"은 이러한 한계를 극복하고자 획기적인 시도를 보여줍니다.

핵심: 연속 학습과 강화 학습의 조화

연구진은 기존 ATP 모델을 연속 학습(continual training) 시키는 방법을 제시합니다. 다수의 명제-증명 쌍으로 이루어진 혼합 데이터셋을 사용하고, 여기에 인간의 추론 및 가설 개선 과정을 모방한 데이터를 추가하여 모델의 학습 능력을 향상시켰습니다. 더 나아가, Lean 4 컴파일러가 반환하는 결과 보상을 이용한 강화 학습(reinforcement learning) 을 도입했습니다.

놀라운 결과: 최첨단 성능 달성

이러한 연속 학습과 강화 학습 과정을 통해 DeepSeek-Prover-v1.5와 Goedel-Prover 등 기존 형식 증명기를 성공적으로 개선하여 전체 증명 생성 분야에서 최첨단 성능을 달성했습니다. 특히 MiniF2F 데이터셋에서 59.8%의 통과율(pass@32)을 기록했습니다. 이는 기존 기술을 뛰어넘는 괄목할 만한 성과입니다.

미래를 향한 발걸음: 지속적인 업데이트와 공유

연구진은 이 프로젝트를 지속적으로 발전시켜 나갈 것이며, 향후 연구 결과, 데이터, 훈련 세부 정보를 공개할 예정입니다. Leanabell-Prover는 ATP 분야의 새로운 이정표를 세웠을 뿐 아니라, 미래의 형식적 추론 연구에 중요한 방향을 제시하는 의미있는 성과입니다. 이는 단순한 기술적 진보를 넘어, 인공지능이 인간의 추론 능력에 더욱 가까워지는 흥미로운 발걸음이라 할 수 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Leanabell-Prover: Posttraining Scaling in Formal Reasoning

Published:  (Updated: )

Author: Jingyuan Zhang, Qi Wang, Xingguang Ji, Yahui Liu, Yang Yue, Fuzheng Zhang, Di Zhang, Guorui Zhou, Kun Gai

http://arxiv.org/abs/2504.06122v1