HybridProver: LLM 기반 증명 합성 및 개선을 통한 정리 증명의 혁신
HybridProver는 LLM을 활용하여 전술 기반 생성과 전체 증명 생성 방식을 결합한 혁신적인 정리 증명 자동화 프레임워크입니다. miniF2F 데이터셋에서 기존 최고 기록을 경신하는 성과를 거두었으며, 오픈소스로 공개되어 학계 및 산업계에 큰 영향을 미칠 것으로 예상됩니다.

인공지능이 수학적 증명을 자동화하다: HybridProver의 놀라운 성과
중요 시스템의 신뢰성 검증에 필수적인 형식적 방법론은, 복잡하고 시간이 많이 소요되는 수동 증명과 전문 지식의 부족으로 인해 그 활용이 제한적이었습니다. 하지만 최근 대규모 언어 모델(LLM)의 발전은 자동 정리 증명 분야에 새로운 가능성을 열었습니다. 단계별 전술 생성과 LLM을 이용한 전체 증명 직접 생성이라는 두 가지 유망한 접근 방식이 존재하지만, 기존 연구는 이 두 가지를 결합하는 시도를 하지 않았습니다.
Jilin Hu, Jianyu Zhang, Yongwang Zhao, Talia Ringer 연구팀은 이러한 한계를 극복하고자 HybridProver라는 듀얼 모델 증명 합성 프레임워크를 개발했습니다. HybridProver는 전술 기반 생성과 전체 증명 생성의 장점을 결합하여 시너지 효과를 창출합니다. 먼저, LLM을 이용하여 전체 증명 후보를 생성하고 평가합니다. 이후 후보에서 증명 개요를 추출하고, 자동화 도구가 통합된 전술 기반 생성 모델을 사용하여 단계적 개선을 통해 개요를 완성합니다.
연구팀은 Isabelle 정리 증명기에 HybridProver를 구현하고, 최적화된 Isabelle 데이터셋으로 LLM을 미세 조정했습니다. miniF2F 데이터셋을 이용한 평가 결과, HybridProver는 59.4%의 성공률을 달성하여 기존 최고 기록(56.1%)을 경신했습니다. 이러한 성과는 전체 증명 생성과 전술 기반 생성의 결합이 가져온 시너지 효과임을 ablation study를 통해 확인했습니다.
더 나아가, 연구팀은 데이터셋 품질, 훈련 매개변수, 샘플링 다양성이 LLM을 이용한 자동 정리 증명 결과에 미치는 영향을 분석했습니다. 특히 모든 코드, 데이터셋, LLM을 오픈소스로 공개하여 연구의 투명성을 확보하고, 학계 및 산업계의 협력을 도모했습니다.
결론적으로, HybridProver는 LLM을 활용한 자동 정리 증명 분야에 새로운 지평을 열었습니다. 그 효율성과 재현 가능성을 높인 이 연구는 인공지능을 활용한 수학적 증명 자동화의 발전에 중요한 이정표가 될 것입니다. 앞으로 HybridProver가 더욱 발전하여 복잡한 시스템의 신뢰성 검증에 널리 활용될 수 있기를 기대합니다. 이는 소프트웨어의 안전성과 보안성 향상에 크게 기여할 것입니다.
Keywords: HybridProver, LLM, 정리 증명, 자동 증명, Isabelle, 형식적 방법론, AI, 인공지능
Reference
[arxiv] HybridProver: Augmenting Theorem Proving with LLM-Driven Proof Synthesis and Refinement
Published: (Updated: )
Author: Jilin Hu, Jianyu Zhang, Yongwang Zhao, Talia Ringer
http://arxiv.org/abs/2505.15740v1