AI 채점 시스템의 편향성: 영어 학습자를 중심으로
본 기사는 Guo 등(2025)의 연구를 바탕으로 AI 자동 채점 시스템의 영어 학습자(ELL)에 대한 편향성 문제를 다룹니다. 연구 결과에 따르면 대규모 데이터셋을 사용한 경우 ELL에 대한 편향성은 최소화되지만, 소규모 데이터셋의 경우 편향성이 발생할 수 있음을 보여줍니다. 이는 AI 채점 시스템 개발 시 ELL 데이터의 균형있는 포함과 충분한 데이터 크기 확보의 중요성을 강조합니다.

최근 교육 현장에서 AI 기반 자동 채점 시스템의 도입이 증가하고 있습니다. 하지만 이러한 시스템이 영어 학습자(ELL)에게 공정한 평가를 제공하는지에 대한 의문이 제기되고 있습니다. Guo 등(2025)의 연구는 이러한 우려를 뒷받침하는 흥미로운 결과를 제시합니다.
연구의 핵심: 본 연구는 중학교 과학 과제에 대한 서술형 답변 채점에서 AI 자동 채점 시스템이 ELL에게 어떤 편향성을 보이는지 조사했습니다. 특히, ELL 데이터의 불균형이 채점 편향에 어떻게 영향을 미치는지에 초점을 맞추었습니다. 연구진은 BERT 모델을 네 가지 데이터셋으로 미세 조정했습니다. 각각 (1) ELL만, (2) 비ELL만, (3) 실제 ELL 비율을 반영한 불균형 데이터셋, (4) ELL과 비ELL이 균등하게 포함된 균형 데이터셋입니다.
놀라운 결과: 연구 결과는 데이터셋의 크기가 AI 채점 시스템의 공정성에 결정적인 영향을 미친다는 것을 보여줍니다. ELL 응답 데이터가 30,000개 또는 1,000개로 충분히 큰 경우 AI 시스템은 ELL과 비ELL 사이에 유의미한 채점 편향이나 불균형을 보이지 않았습니다. 하지만 ELL 응답 데이터가 200개로 제한적인 경우에는 편향성이 발생할 가능성이 있는 것으로 나타났습니다. 이는 AI 시스템의 학습 데이터 균형과 양이 채점 결과의 정확성과 공정성에 직접적인 영향을 미친다는 것을 의미합니다.
시사점: 이 연구는 AI 기반 자동 채점 시스템 개발 시 ELL 데이터의 균형있는 포함과 충분한 데이터 크기 확보의 중요성을 강조합니다. 단순히 AI 기술 도입에만 집중하기보다는, 시스템의 공정성과 신뢰성을 확보하기 위한 데이터 전략과 엄격한 검증 절차가 필수적임을 보여줍니다. 특히 소규모 데이터셋으로 개발된 AI 채점 시스템의 사용에는 신중을 기해야 하며, 지속적인 모니터링과 개선이 필요합니다. 향후 연구에서는 다양한 언어와 학습 수준의 ELL을 대상으로 더욱 광범위한 연구가 필요할 것으로 예상됩니다.
참고: 본 기사는 Guo 등(2025)의 연구 결과를 바탕으로 작성되었습니다. 자세한 내용은 원 논문을 참조하시기 바랍니다.
Reference
[arxiv] Artificial Intelligence Bias on English Language Learners in Automatic Scoring
Published: (Updated: )
Author: Shuchen Guo, Yun Wang, Jichao Yu, Xuansheng Wu, Bilgehan Ayik, Field M. Watts, Ehsan Latif, Ninghao Liu, Lei Liu, Xiaoming Zhai
http://arxiv.org/abs/2505.10643v2