획기적인 조합 수학 벤치마크 CombiBench 등장: LLM의 한계와 가능성을 탐구하다
본 기사는 조합 수학 문제 해결을 위한 새로운 벤치마크 CombiBench와 평가 프레임워크 Fine-Eval에 대한 소개입니다. CombiBench는 다양한 난이도의 100개 문제를 포함하며, 현재 LLM의 조합 수학 능력이 제한적임을 보여주는 결과를 제시합니다. Kimina-Prover가 가장 우수한 성능을 보였으며, 본 연구는 LLM의 발전에 중요한 기여를 할 것으로 기대됩니다.

최근, 대규모 언어 모델(LLM)이 수학 문제 해결 능력에서 놀라운 발전을 보이고 있습니다. 대수, 기하, 정수론 분야에서 인간 수준의 성능을 달성하기도 했습니다. 하지만 조합 수학은 여전히 난공불락의 영역으로 남아있었습니다. 적절한 벤치마크와 정리 라이브러리의 부재가 그 원인이었습니다.
이러한 문제를 해결하고자, Junqi Liu 등 15명의 연구자들이 CombiBench라는 획기적인 벤치마크를 개발했습니다. CombiBench는 Lean 4로 공식화된 100개의 조합 수학 문제를 담고 있습니다. 각 문제는 비공식적인 설명과 함께 제공됩니다. 문제의 난이도는 중학교 수준부터 IMO(국제수학올림피아드) 및 대학 수준까지 다양하며, 10가지 이상의 조합 수학 주제를 아우릅니다. 특히 2000년 이후 IMO 조합 문제(IMO 2004 P3 제외)를 모두 포함하여 IMO 수준의 문제 해결 능력 평가에 적합하도록 설계되었습니다.
CombiBench의 또 다른 혁신은 바로 Fine-Eval 평가 프레임워크입니다. Fine-Eval은 증명 기반 문제뿐 아니라, 최초로 빈칸 채우기 문제 평가도 지원합니다. 이는 LLM의 조합 수학 문제 해결 능력을 더욱 포괄적으로 평가할 수 있도록 합니다. Kimina Lean Server를 백엔드로 활용하여 여러 LLM을 CombiBench로 평가한 결과, 현재 LLM의 조합 수학 문제 해결 능력은 여전히 제한적인 것으로 나타났습니다. 테스트된 모든 모델(특정 작업을 위해 훈련된 모델 없음) 중 Kimina-Prover가 가장 좋은 성능을 보였으며, 100개 문제 중 7개를 '정답 포함' 및 '정답 미포함' 시나리오 모두에서 해결했습니다.
CombiBench 벤치마크 데이터셋과 Fine-Eval 평가 방법 코드는 https://github.com/MoonshotAI/CombiBench/ 에서 공개되어 있습니다. CombiBench는 LLM의 조합 수학 문제 해결 능력을 평가하는 중요한 도구가 될 뿐만 아니라, 향후 LLM의 발전 방향을 제시하는 중요한 이정표가 될 것으로 기대됩니다. 앞으로 CombiBench를 활용한 연구를 통해 LLM의 조합 수학 능력 향상을 위한 새로운 알고리즘과 방법론이 개발될 것으로 예상됩니다. 이를 통해 인공지능의 수학적 추론 능력의 한계를 극복하고, 더욱 강력하고 유용한 AI 시스템 개발에 기여할 것으로 기대됩니다.
Reference
[arxiv] CombiBench: Benchmarking LLM Capability for Combinatorial Mathematics
Published: (Updated: )
Author: Junqi Liu, Xiaohan Lin, Jonas Bayer, Yael Dillies, Weijie Jiang, Xiaodan Liang, Roman Soletskyi, Haiming Wang, Yunzhou Xie, Beibei Xiong, Zhengfeng Yang, Jujian Zhang, Lihong Zhi, Jia Li, Zhengying Liu
http://arxiv.org/abs/2505.03171v1