챗GPT가 만든 시험 문제, 학생들은 알아챌 수 있을까? 🤔 AI 시대의 교육 평가, 새로운 과제와 기회


AI가 생성한 시험 문제에 대한 학생들의 인식과 성적을 분석한 연구 결과, AI 생성 질문의 난이도와 학생들의 익숙함이 성적에 영향을 미치며, AI 활용 시 공정성과 질적 수준 확보가 중요함을 시사합니다.

related iamge

최근 AI가 교육 현장에 미치는 영향에 대한 관심이 높아지고 있습니다. 특히, 챗GPT와 같은 대규모 언어 모델(LLM)을 활용하여 시험 문제를 생성하는 시도가 늘고 있는데요. 과연 AI가 만든 시험 문제는 학생들에게 어떻게 받아들여질까요?

미국 연구진(Gavin Witsken, Igor Crk, Eren Gultepe)의 연구 결과가 흥미로운 시사점을 제공합니다. 연구진은 챗GPT를 활용하여 생성한 질문과 사람이 직접 작성한 질문을 무작위로 학생들에게 배포하고, 정답률과 질문 작성자 식별 능력을 비교 분석했습니다. 흥미롭게도 학생들은 챗GPT가 작성한 질문과 사람이 작성한 질문을 구별하는 데 어려움을 보였습니다. Mann-Whitney U 검정 결과 (z = 1.018, p = .309), 통계적으로 유의미한 차이가 없었던 것이죠.

하지만, 결과는 여기서 끝나지 않습니다. 챗GPT가 작성한 질문에 대한 학생들의 점수는 사람이 작성한 질문보다 약 9% 낮았습니다 (z = 2.702, p < .01). 이는 챗GPT가 생성한 질문의 난이도가 더 높았거나, 학생들이 교수의 질문 스타일(인간이 만든 질문)에 더 익숙했기 때문일 수 있습니다.

즉, AI를 활용하여 시험 문제를 만드는 것은 가능하지만, 몇 가지 중요한 점을 고려해야 합니다.

  • 문제의 난이도: AI가 생성한 문제가 적절한 난이도를 유지해야 합니다. 단순히 어렵게 만들기보다, 학습 내용을 정확하게 평가할 수 있도록 신중하게 설계되어야 합니다.
  • 공정성: AI가 생성한 문제가 모든 학생에게 공정해야 합니다. 특정 학생에게 유리하거나 불리한 문제가 포함되지 않도록 주의해야 합니다.
  • 교수의 스타일과의 일관성: AI가 생성한 문제가 교수의 강의 스타일과 일치해야 합니다. 학생들이 익숙한 스타일의 문제를 통해 더 나은 평가를 받을 수 있도록 해야 합니다.

이 연구는 AI 시대의 교육 평가에 대한 새로운 과제와 기회를 제시합니다. AI를 적절히 활용하면 교육 효율성을 높일 수 있지만, 동시에 공정성과 질적 수준을 확보하기 위한 노력이 필요하다는 점을 강조하고 있습니다. 앞으로 AI 기술의 발전과 함께 교육 평가 방식에 대한 지속적인 연구와 개선이 필요할 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] LLMs in the Classroom: Outcomes and Perceptions of Questions Written with the Aid of AI

Published:  (Updated: )

Author: Gavin Witsken, Igor Crk, Eren Gultepe

http://arxiv.org/abs/2503.18995v1