AI가 채점하는 미래: 인간과 AI의 협력으로 더 정확한 평가를 향해
LLM을 활용한 자동 채점 시스템 GradeHITL은 인간 전문가의 개입을 통해 채점 정확도를 향상시켜 인간 수준의 평가에 더욱 가까워졌다는 연구 결과를 소개합니다. AI와 인간의 협력을 통해 교육 평가의 효율성과 공정성을 높이는 새로운 패러다임을 제시합니다.

인공지능(AI), 특히 대규모 언어 모델(LLM)의 발전은 교육 분야에 혁신을 가져오고 있습니다. 그 중에서도 단답형 답변의 자동 채점(ASAG)은 LLM의 도입으로 눈부신 발전을 이루었습니다. 기존의 단순 비교 방식을 넘어, LLM은 루브릭(채점 기준) 기반 평가 등 더욱 정교한 채점 시나리오를 가능하게 합니다.
하지만 기존 LLM 기반 방법들은 완전 자동화에 의존하기 때문에 루브릭 기반 평가에서 인간 수준의 채점 성능을 달성하는 데 어려움을 겪고 있습니다. 여기서 흥미로운 연구가 등장합니다. Hang Li, Yucheng Chu, Kaiqi Yang, Yasemin Copur-Gencturk, 그리고 Jiliang Tang 연구팀이 발표한 논문 "LLM-based Automated Grading with Human-in-the-Loop" 입니다.
이 연구는 인간-컴퓨터 상호 작용(HITL) 방식을 통해 LLM의 상호 작용 능력을 활용하여 ASAG 과제에서 LLM의 잠재력을 탐구합니다. 연구팀이 제안한 GradeHITL 프레임워크는 LLM의 생성 능력을 활용하여 인간 전문가에게 질문을 던지고, 그들의 통찰력을 바탕으로 채점 기준을 동적으로 개선합니다. 이러한 적응형 프로세스는 채점 정확도를 크게 향상시켜 기존 방법들을 능가하며, ASAG를 인간 수준의 평가에 더욱 가까이 다가가게 합니다.
이는 단순히 AI가 인간을 대체하는 것이 아니라, AI와 인간이 협력하여 더욱 정확하고 효율적인 평가 시스템을 구축하는 새로운 패러다임을 제시합니다. AI의 객관성과 인간의 전문성이 결합된 GradeHITL은 교육 평가의 미래를 엿볼 수 있는 중요한 사례입니다. 앞으로 AI 기반 채점 시스템의 발전과 더불어 인간의 역할에 대한 고찰이 더욱 심도 있게 이루어질 것으로 예상됩니다. 더 나아가, 이러한 기술이 다양한 분야의 평가 시스템에 적용되어 효율성을 높이고 공정성을 확보하는 데 기여할 것으로 기대됩니다.
Reference
[arxiv] LLM-based Automated Grading with Human-in-the-Loop
Published: (Updated: )
Author: Hang Li, Yucheng Chu, Kaiqi Yang, Yasemin Copur-Gencturk, Jiliang Tang
http://arxiv.org/abs/2504.05239v2