DeepSeek-Prover-V2: 강화학습 기반 수학적 추론의 새로운 지평
본 기사는 DeepSeek-Prover-V2의 뛰어난 성능과 그 의미를 다룹니다. 강화학습과 부분목표 분해를 결합한 DeepSeek-Prover-V2는 기존 모델의 한계를 극복하고, 수학적 정리 증명 분야에서 새로운 기준을 제시했습니다. 새로운 벤치마크 ProverBench를 통해 공식적, 비공식적 추론 간의 격차가 줄어들고 있음을 보여주는 등 AI 기반 수학적 추론의 발전 가능성을 제시합니다.

최근 인공지능 분야에서 수학적 정리 증명에 대한 관심이 높아지고 있습니다. 이러한 흐름 속에서 중국 연구진이 개발한 DeepSeek-Prover-V2는 주목할 만한 성과를 달성했습니다. Ren 등(2025)의 연구에 따르면, DeepSeek-Prover-V2는 Lean 4라는 형식적 증명 시스템에서 뛰어난 성능을 보여주었습니다. 핵심은 강화학습과 부분 목표 분해를 결합한 독창적인 접근 방식입니다.
DeepSeek-Prover-V2는 복잡한 문제를 여러 개의 작은 부분 목표로 분해하여 해결하는 방식을 채택했습니다. 이는 DeepSeek-V3이라는 대규모 언어 모델을 기반으로 구축되어, 비공식적인 추론과 공식적인 추론을 모두 활용합니다. DeepSeek-V3가 부분 목표들을 해결하는 과정을 단계적으로 추론하여, 강화 학습을 위한 초기 데이터를 생성합니다. 이는 마치 경험 많은 수학자가 복잡한 문제를 단계적으로 풀어나가는 과정과 유사합니다.
결과는 놀라웠습니다. DeepSeek-Prover-V2-671B 모델은 MiniF2F-test에서 88.9%의 정확도를 달성했고, PutnamBench의 658개 문제 중 49개를 해결했습니다. 더욱 고무적인 것은, 연구진이 새롭게 제시한 ProverBench라는 벤치마크 데이터셋에서도 괄목할 만한 성과를 거두었다는 점입니다. ProverBench는 325개의 공식화된 문제를 포함하고 있으며, 최근 AIME 경시대회(24-25년) 문제 15개도 포함되어 있습니다. DeepSeek-Prover-V2는 이 중 6개 문제를 해결했는데, 이는 DeepSeek-V3의 다수결 투표 방식(8개 문제 해결)과 비교했을 때, 대규모 언어 모델에서 공식적 추론과 비공식적 추론 간의 격차가 상당히 줄어들었음을 시사하는 중요한 결과입니다.
이 연구는 단순히 새로운 모델을 제시하는 것을 넘어, AI 기반 수학적 추론의 새로운 가능성을 제시합니다. 강화 학습과 부분 목표 분해의 효과적인 결합, 그리고 새로운 벤치마크 ProverBench의 등장은 앞으로 AI가 수학 분야에서 더욱 복잡한 문제들을 해결하는 데 중요한 역할을 할 수 있음을 보여줍니다. 하지만 여전히 해결해야 할 과제는 남아 있습니다. 더욱 복잡하고 다양한 수학적 문제에 대한 도전과, 모델의 해석 가능성을 높이는 연구가 지속적으로 필요할 것입니다.
Reference
[arxiv] DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition
Published: (Updated: )
Author: Z. Z. Ren, Zhihong Shao, Junxiao Song, Huajian Xin, Haocheng Wang, Wanjia Zhao, Liyue Zhang, Zhe Fu, Qihao Zhu, Dejian Yang, Z. F. Wu, Zhibin Gou, Shirong Ma, Hongxuan Tang, Yuxuan Liu, Wenjun Gao, Daya Guo, Chong Ruan
http://arxiv.org/abs/2504.21801v1