뇌 대 바이트: LLM의 수학 올림피아드 문제 해결 능력 평가
본 연구는 LLM의 수학적 추론 능력을 올림피아드 수준 문제를 통해 평가하고, 정답률 중심의 기존 평가 방식의 한계를 지적하며, 추론 과정의 엄밀성을 평가하는 새로운 벤치마크 개발의 필요성을 제시합니다.

최근 대규모 언어 모델(LLM)의 발전은 수학적 추론 작업에서 놀라운 발전을 보여주었습니다. 하지만 현재의 평가 기준은 최종 답변의 정확성에만 초점을 맞추는 경우가 많아 수학적 문제 해결에 필수적인 논리적 엄격성을 간과하는 경향이 있습니다. 최첨단 LLM이 수학 올림피아드 수준의 문제를 풀 수 있다는 주장은 더욱 면밀한 검토가 필요합니다.
이를 탐구하기 위해 Hamed Mahdavi를 비롯한 9명의 연구원들은 LLM이 생성한 증명에 대한 정성적 및 정량적 인간 평가를 수행하고, 그들의 추론 능력을 자동으로 평가하는 체계를 개발했습니다. 연구 결과, 현재의 LLM은 어려운 올림피아드 수준의 문제를 해결하는 데 상당히 미흡하며, 종종 올바른 수학적 추론과 명백히 잘못된 해결책을 구별하지 못하는 것으로 나타났습니다. 또한 LLM이 제공하는 경우에 따른 정답은 진정한 수학적 추론이 아닌 패턴 인식이나 휴리스틱 지름길의 결과인 경우가 많다는 것을 발견했습니다.
이러한 결과는 고급 수학적 추론에서 LLM의 성능과 인간 전문가의 전문성 사이에 상당한 격차가 있음을 강조하며, 최종 답변의 정확성이 아닌 수학적 주장의 엄격성과 일관성을 우선시하는 벤치마크를 개발하는 것이 중요함을 보여줍니다. 단순히 정답을 맞추는 것 이상의, 수학적 사고의 깊이와 논리적 전개 과정의 엄밀성을 평가하는 새로운 평가 지표 개발이 시급한 과제로 떠오르고 있습니다. 이는 단순히 기술의 발전뿐 아니라, 인간의 사고 과정에 대한 이해와 인공지능의 한계를 탐구하는 중요한 학문적 성과로 평가될 수 있습니다. 🏆
Reference
[arxiv] Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics
Published: (Updated: )
Author: Hamed Mahdavi, Alireza Hashemi, Majid Daliri, Pegah Mohammadipour, Alireza Farhadi, Samira Malek, Yekta Yazdanifard, Amir Khasahmadi, Vasant Honavar
http://arxiv.org/abs/2504.01995v1