획기적인 연구! AI의 창의성을 측정하는 새로운 방법 등장!


Ruizhe Li 등 연구진의 논문은 Torrance Test of Creative Writing (TTCW) 기반의 참조 기반 접근 방식을 활용, LLM의 창의성을 자동 평가하는 새로운 방법을 제시하며, 인간 평가와의 일치도를 15% 향상시켰습니다. 이는 AI 창작 평가의 획기적인 발전으로, AI가 창작 분야에 더욱 활발하게 참여하는 기반을 마련할 것으로 예상됩니다.

related iamge

AI가 시를 쓰고 소설을 짓는 시대, 진정한 '창의성'은 어떻게 평가할까?

최근, 인공지능(AI)이 창작 분야에서 놀라운 능력을 선보이고 있습니다. 하지만, AI가 만들어낸 작품의 '창의성'을 어떻게 객관적으로 평가할 수 있을까요? 기존의 방법들은 비용이 많이 들거나, 사람의 주관적인 판단에 의존하는 경우가 많았습니다.

그런 가운데, Ruizhe Li 등 연구진이 발표한 논문 "Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach"는 이 문제에 대한 획기적인 해결책을 제시합니다. 이 논문은 Torrance Test of Creative Writing (TTCW) 를 기반으로 한 참조 기반 접근 방식을 활용하여, AI가 생성한 텍스트의 창의성을 자동으로 평가하는 새로운 방법을 제안합니다.

TTCW는 창의성을 '산출물'로 평가하는 검사로, 연구진은 이를 바탕으로 LLM이 생성한 창작물을 고품질 참고 텍스트와 비교하여 점수를 매기는 등급식(Likert-style) 접근 방식을 고안했습니다. 결과는 놀라웠습니다. 이 방법은 기존 방식보다 인간의 평가와 훨씬 높은 일치율을 보였는데, 쌍별 정확도가 무려 0.75(+15%) 를 기록했습니다. 이는 AI의 창의성 평가에 있어서 괄목할 만한 진전입니다.

이 연구의 의미는 무엇일까요?

단순히 AI의 창의성을 측정하는 기술의 발전을 넘어, 이 연구는 AI가 창작 활동에 본격적으로 참여하는 시대에 객관적이고 효율적인 평가 시스템을 구축하는데 중요한 이정표를 제시합니다. 앞으로 AI가 쓰는 소설, 시, 음악 등의 작품이 더욱 발전하고, 그 질을 객관적으로 평가할 수 있는 기반이 마련될 것으로 기대됩니다. 하지만, 여전히 AI의 창의성을 완벽히 측정하는 것은 어려운 과제입니다. 인간의 창의성과 AI의 창의성의 차이, 그리고 AI 창작의 윤리적 문제 등은 앞으로 지속적인 연구와 논의가 필요한 부분입니다.

하지만 이번 연구는 AI 창작의 새로운 지평을 열었다는 점에서 큰 의미를 지닙니다. 앞으로 AI가 창작 분야에서 어떤 놀라운 결과물을 만들어낼지, 그리고 그 평가는 어떻게 진화해 나갈지 기대하며 지켜볼 필요가 있습니다. 🙏


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach

Published:  (Updated: )

Author: Ruizhe Li, Chiwei Zhu, Benfeng Xu, Xiaorui Wang, Zhendong Mao

http://arxiv.org/abs/2504.15784v1