놀라운 반전! AI의 창의성, 정체기에 접어들었나?
최근 연구에 따르면, GPT-4를 포함한 주요 LLM들의 창의성이 지난 18~24개월 동안 향상되지 않았으며, 모델 간, 모델 내 변동성이 크다는 사실이 밝혀졌습니다. 이는 AI 창의성 평가의 어려움과 LLM 활용의 현실적인 제약을 보여주는 결과입니다.

AI 창의성의 정체기? 새로운 연구 결과가 충격을 안겨주다!
2023년 초 ChatGPT의 등장 이후, 인공지능(AI) 특히 대규모 언어 모델(LLM)이 인간의 창의성을 뛰어넘을 수 있다는 주장이 봇물처럼 쏟아졌습니다. 하지만 과연 그럴까요? 최근 발표된 한 연구는 이러한 기대에 찬물을 끼얹었습니다. Jennifer Haase, Paul H. P. Hanel, Sebastian Pokutta 세 연구자는 GPT-4, Claude, Llama, Grok, Mistral, DeepSeek 등 14개의 LLM을 대상으로 심층 분석을 실시했습니다. 그 결과는 예상을 뒤엎었습니다. 지난 18~24개월 동안 LLM의 창의성이 향상되었다는 증거는 발견되지 않았다는 것입니다! 심지어 GPT-4는 이전 연구 결과보다 성능이 낮게 나타났습니다.
연구팀은 두 가지 검증된 창의성 평가 방법인 발산적 연상 과제(DAT) 과 대안적 용도 과제(AUT) 를 사용했습니다. AUT 평가에서 모든 모델이 평균적인 인간보다 좋은 성적을 거두긴 했지만, 놀랍게도 LLM이 생성한 응답 중 상위 10%의 인간 창의성 수준에 도달한 것은 단 0.28%에 불과했습니다. GPT-4o 및 o3-mini가 가장 좋은 성적을 보였지만, 이는 전체 그림의 일부일 뿐입니다.
더욱 충격적인 사실은 모델 내부의 변동성입니다. 동일한 LLM에 동일한 프롬프트를 입력해도 결과는 평균 이하부터 독창적인 수준까지 천차만별이었습니다. 이는 LLM의 창의적 잠재력을 과대 또는 과소평가할 위험이 있음을 시사합니다. 프롬프트의 선택에 따라서도 LLM의 반응이 달라지는 점 또한 주목할 만합니다.
이 연구는 단순히 LLM의 성능을 비교하는 것을 넘어, 창의성 평가의 복잡성과 LLM 활용의 어려움을 보여줍니다. 연구자들은 모델 선택, 프롬프트 설계, 반복적인 평가의 중요성을 강조하며, 더욱 정교한 평가 체계의 필요성을 역설했습니다. AI의 창의성에 대한 기대와 현실 사이의 괴리를 극복하기 위해서는, 단순히 성능 향상만을 추구하기보다는, 이러한 변동성을 이해하고 관리하는 기술이 중요해 보입니다. 앞으로 AI 창의성 연구는 이러한 한계를 극복하고, 실제 응용 분야에서 AI의 창의성을 더욱 효과적으로 활용하는 방안을 모색해야 할 것입니다. 🧐
Reference
[arxiv] Has the Creativity of Large-Language Models peaked? An analysis of inter- and intra-LLM variability
Published: (Updated: )
Author: Jennifer Haase, Paul H. P. Hanel, Sebastian Pokutta
http://arxiv.org/abs/2504.12320v1