APOLLO: LLM과 Lean의 협업으로 정형 추론의 새 지평을 열다


Azim Ospanov, Farzan Farnia, Roozbeh Yousefzadeh 연구팀이 개발한 APOLLO 시스템은 LLM과 Lean 컴파일러를 결합하여 정형 추론의 효율성과 정확성을 획기적으로 높였습니다. 다양한 벤치마크에서 최첨단 성능을 달성하며, LLM 기반 정형 추론 분야의 새로운 가능성을 제시했습니다.

related iamge

LLM과 Lean의 만남: 정형 추론의 혁신

최근 몇 년 동안, 인공지능(AI)의 눈부신 발전은 다양한 분야에 혁신적인 변화를 가져왔습니다. 특히 대규모 언어 모델(LLM)은 자연어 처리 분야를 넘어, 수학적 정리 증명과 같은 복잡한 작업에도 적용되기 시작했습니다. 그러나 LLM을 이용한 정형 추론은 여전히 많은 어려움에 직면해 있습니다. 정확한 정형 증명을 생성하는 것은 매우 어려운 과제이며, 기존의 방법들은 수천 번의 시도에도 불구하고 성공률이 낮았습니다.

하지만 이제 새로운 희망이 등장했습니다! Azim Ospanov, Farzan Farnia, Roozbeh Yousefzadeh가 이끄는 연구팀은 APOLLO (Automated PrOof repair via LLM and Lean cOllaboration) 라는 혁신적인 시스템을 개발했습니다. APOLLO는 LLM의 추론 능력과 Lean 컴파일러의 강점을 결합하여 정형 추론의 효율성과 정확성을 획기적으로 향상시켰습니다.

APOLLO: LLM과 Lean의 시너지 효과

APOLLO는 LLM이 정리를 증명하고, 여러 에이전트가 이를 분석하여 구문 오류를 수정하고, Lean을 사용하여 증명상의 오류를 식별하는 모듈식 파이프라인입니다. 실패한 부분을 분리하고 자동 솔버를 활용하며, 각 남은 목표에 대해 LLM을 효율적으로 사용합니다. 수정된 부분 증명을 다시 결합하고 검증하는 과정을 반복하여 최종적으로 정확한 정형 증명을 생성합니다.

놀라운 성능 향상: 기존 기술의 한계를 뛰어넘다

APOLLO는 miniF2F 벤치마크에서 7B 매개변수 모델을 사용하여 75.0%라는 최고 수준의 정확도를 달성했습니다. 특히, 샘플링 횟수를 1,000회 미만으로 제한하면서 이러한 성과를 이룬 것은 매우 주목할 만합니다. Goedel-Prover-SFT에서도 정확도를 65.6%로 높였으며, 샘플링 복잡도는 25,600회에서 수백 회로 크게 감소시켰습니다. 일반적인 모델의 정확도도 3-7%에서 40% 이상으로 극적으로 향상되었습니다.

새로운 패러다임의 제시: 확장 가능한 자동 정리 증명 시대의 도래

APOLLO의 성공은 LLM 출력의 표적화된 컴파일러 기반 복구가 효율성과 정확성 모두에 엄청난 이점을 제공한다는 것을 보여줍니다. 이는 확장 가능한 자동 정리 증명을 위한 새로운 일반적인 패러다임을 제시하며, 수학, 컴퓨터 과학 등 다양한 분야에 깊은 영향을 미칠 것으로 예상됩니다. APOLLO는 단순한 기술적 발전을 넘어, 인간의 지능과 AI의 협력을 통해 더욱 복잡하고 어려운 문제를 해결할 수 있는 새로운 가능성을 열었습니다. 앞으로 APOLLO가 어떻게 발전하고 활용될지, 그 미래가 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] APOLLO: Automated LLM and Lean Collaboration for Advanced Formal Reasoning

Published:  (Updated: )

Author: Azim Ospanov, Farzan Farnia, Roozbeh Yousefzadeh

http://arxiv.org/abs/2505.05758v2