혁신적인 자동 에세이 채점: Rank-Then-Score 프레임워크
대규모 언어 모델(LLM)을 활용한 자동 에세이 채점(AES) 분야에서, Rank-Then-Score (RTS) 프레임워크가 기존 방법보다 우수한 성능을 보임을 보여주는 연구 결과가 발표되었습니다. 특히 중국어 에세이 채점에서 HSK 데이터셋을 기준으로 최고 성능을 기록했습니다.

AI가 에세이 채점을 혁신하다: Rank-Then-Score 프레임워크
최근 몇 년간 대규모 언어 모델(LLM)은 다양한 작업에서 놀라운 성과를 거두었습니다. 하지만 자동 에세이 채점(AES) 분야에서는 그 잠재력이 아직 충분히 탐구되지 않았습니다. 특히 영어 데이터와 비교했을 때, 중국어 AES를 위한 방법론은 아직 미흡한 실정입니다.
이러한 문제를 해결하기 위해 Cai Yida 등 연구진은 새로운 프레임워크인 Rank-Then-Score (RTS) 를 제안했습니다. 이는 LLM의 에세이 채점 능력을 향상시키는 미세 조정(fine-tuning) 프레임워크입니다. RTS는 두 가지 모델로 구성됩니다. 먼저, 특징이 풍부한 데이터로 순위 모델(Ranker)을 미세 조정하고, 그 결과로 나온 후보 점수 집합과 에세이 내용을 점수 모델(Scorer)에 입력하여 최종 점수를 산출합니다.
HSK와 ASAP이라는 두 개의 벤치마크 데이터셋을 사용한 실험 결과, RTS는 모든 LLM과 데이터셋에서 평균 QWK(Quadratic Weighted Kappa) 측면에서 기존의 직접 프롬프팅(Vanilla) 방법보다 꾸준히 우수한 성능을 보였습니다. 특히, 중국어 에세이 채점에서는 HSK 데이터셋에서 최고 성능을 달성했습니다. 이는 중국어 교육 및 평가 분야에 큰 영향을 미칠 것으로 예상됩니다.
연구진: Cai Yida, Kun Liang, Sanwoo Lee, Qinghan Wang, Yunfang Wu
주요 내용:
- LLM 기반의 새로운 자동 에세이 채점 프레임워크 Rank-Then-Score (RTS) 제안
- 특징 풍부한 데이터를 활용한 순위 모델(Ranker)과 점수 모델(Scorer)의 결합
- HSK 및 ASAP 데이터셋에서 기존 방법 대비 우수한 성능 검증
- 특히 HSK 데이터셋에서 중국어 에세이 채점 분야 최고 성능 달성
이 연구는 LLM을 활용한 AES 분야의 발전에 중요한 기여를 할 뿐만 아니라, 향후 다양한 언어와 평가 과제에 대한 자동 채점 시스템 개발에 새로운 가능성을 제시합니다. 앞으로 RTS 프레임워크의 더욱 다양한 응용과 발전이 기대됩니다.
Reference
[arxiv] Rank-Then-Score: Enhancing Large Language Models for Automated Essay Scoring
Published: (Updated: )
Author: Yida Cai, Kun Liang, Sanwoo Lee, Qinghan Wang, Yunfang Wu
http://arxiv.org/abs/2504.05736v1