챗GPT는 수학 문제 풀이 과정까지 이해할 수 있을까? LLM 기반 수학 인지 능력 진단 연구 결과 발표
본 연구는 대규모 언어 모델(LLM)을 이용한 수학 문제 해결 과정에서의 학생 인지 능력 진단 연구로, 16개의 LLM을 활용하여 639명 학생의 답변을 분석한 결과 LLM의 정확도가 낮고 과도한 자신감을 보이는 문제점을 발견했습니다. 하지만 모델 크기가 클수록 성능이 향상되는 경향을 보여 향후 발전 가능성을 시사합니다.

최근 급속도로 발전하는 인공지능 기술은 교육 분야에도 큰 변화를 가져오고 있습니다. 특히, 대규모 언어 모델(LLM)은 학생들의 학습 과정을 분석하고 평가하는 새로운 가능성을 제시하고 있습니다. 그러나 LLM이 학생들의 인지 능력을 얼마나 정확하게 진단할 수 있는지는 아직까지 명확히 밝혀지지 않았습니다.
진(Hyoungwook Jin) 교수 연구팀을 비롯한 연구진들은 이러한 의문에 답하기 위해, LLM을 활용한 수학 문제 해결 능력 평가 연구를 진행했습니다. 연구팀은 중학교 수준의 수학 문제 110개에 대한 639명 학생들의 답변을 수집하여 새로운 벤치마크 데이터셋인 MathCog를 구축했습니다. MathCog 데이터셋에는 각 답변에 대한 교사의 상세한 인지 능력 진단 결과가 포함되어 있습니다. 이는 단순히 정답/오답 여부를 넘어, 학생들의 문제 해결 과정에서 어떤 인지적 과정이 작용했는지를 분석하는 데 중요한 자료입니다.
연구팀은 16개의 다양한 LLM (모델 크기 및 제공업체 다양)을 MathCog 데이터셋에 적용하여 학생들의 인지 능력 진단 성능을 평가했습니다. 결과는 놀라웠습니다. 모든 LLM의 F1 점수는 0.5 미만으로 나타났으며, 오답에 대해서도 높은 확신을 보이는 경향($r_s = .617$)을 보였습니다. 이는 LLM이 학생들의 답변을 정확하게 분석하고 인지 능력을 진단하는 데 어려움을 겪고 있음을 시사합니다. 하지만 흥미롭게도 모델의 크기가 클수록 진단 성능이 향상되는 양의 상관관계($r_s = .771$)를 보였습니다. 즉, 더욱 발전된 LLM이 더 나은 성능을 보일 가능성이 있음을 의미합니다.
이 연구는 LLM 기반 자동화된 인지 능력 진단의 가능성과 한계를 동시에 보여줍니다. LLM의 높은 오류율과 과도한 자신감은 향후 개선이 필요한 부분이며, 더욱 정교한 알고리즘 개발과 데이터셋 구축이 중요한 과제로 남아 있습니다. 하지만 이번 연구는 LLM을 활용한 교육 평가의 새로운 지평을 열었으며, 앞으로의 연구 발전 방향을 제시했다는 점에서 큰 의의를 지닙니다. 앞으로 더욱 정확하고 효과적인 LLM 기반 교육 평가 시스템의 개발을 기대해 볼 수 있습니다.
Reference
[arxiv] Investigating Large Language Models in Diagnosing Students' Cognitive Skills in Math Problem-solving
Published: (Updated: )
Author: Hyoungwook Jin, Yoonsu Kim, Dongyun Jung, Seungju Kim, Kiyoon Choi, Jinho Son, Juho Kim
http://arxiv.org/abs/2504.00843v1