AI의 창의성 탐구: 영상-언어 모델이 만들어내는 새로운 조합의 세계


본 기사는 최근 발표된 논문 "Probing and Inducing Combinational Creativity in Vision-Language Models"을 바탕으로, 비전-언어 모델(VLMs)의 조합적 창의성에 대한 연구 결과를 소개합니다. IEI 프레임워크와 CreativeMashup 데이터셋을 통해 VLMs의 창의성 평가 및 향상에 대한 새로운 가능성을 제시하며, 인공지능의 창의성에 대한 흥미로운 논의를 제공합니다.

related iamge

최근 GPT-4V와 DALL-E 3와 같은 비전-언어 모델(VLMs)의 발전은 놀라움을 금치 못하게 합니다. 단순한 패턴 인식을 넘어, 기존 개념들을 조합하여 완전히 새로운 아이디어를 창출하는 능력, 즉 조합적 창의성을 보여주고 있기 때문입니다. 하지만 이러한 모델의 출력이 진정한 창의성을 반영하는 것인지, 아니면 방대한 훈련 데이터의 정교한 패턴 매칭에 불과한 것인지에 대한 논쟁이 끊이지 않습니다.

중국과학원의 연구진(Yongqian Peng 외)은 인지과학에서 영감을 얻어, 개념 융합(concept blending) 이라는 렌즈를 통해 VLMs의 조합적 창의성을 심층적으로 조사했습니다. 연구진은 창의적 과정을 세 단계(식별, 설명, 함축)로 분해하는 IEI 프레임워크를 제안했습니다. 이는 입력 공간 식별, 공유 속성 추출, 새로운 의미 함축 도출이라는 세 단계로 구성되어, AI 모델의 창의적 과정을 체계적으로 분석하고 평가하는 기틀을 마련합니다.

이 프레임워크의 유효성을 검증하기 위해, 연구진은 CreativeMashup이라는 고품질 데이터셋을 구축했습니다. 666개의 아티스트가 제작한 시각적 혼합 이미지(visual mashups)를 IEI 프레임워크에 따라 주석 처리하여, AI 모델의 성능 평가에 활용했습니다. 실험 결과, 최고 성능의 VLMs는 이해(comprehension) 작업에서 평균적인 인간 수준을 넘어섰지만, 전문가 수준에는 미치지 못했습니다. 하지만 생성(generation) 작업에서는 IEI 프레임워크를 생성 파이프라인에 통합함으로써 VLMs의 창의적 출력 품질을 크게 향상시킬 수 있음을 입증했습니다.

이 연구는 AI의 창의성 평가에 대한 이론적 기반을 확립하고, VLMs의 창의적 생성 능력 향상을 위한 실질적인 지침을 제공한다는 점에서 매우 중요한 의미를 지닙니다. 단순한 기술적 발전을 넘어, 인간의 창의성과 인공지능의 창의성이라는 근본적인 질문에 대한 답을 찾아가는 여정의 중요한 이정표가 될 것입니다. 앞으로 CreativeMashup 데이터셋과 IEI 프레임워크는 AI 창의성 연구 분야의 핵심적인 자원이 될 것으로 기대됩니다. 인공지능이 인간의 창의성을 넘어서는 날이 과연 올까요? 이 연구는 그 가능성을 보여주는 흥미로운 시작점입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Probing and Inducing Combinational Creativity in Vision-Language Models

Published:  (Updated: )

Author: Yongqian Peng, Yuxi Ma, Mengmeng Wang, Yuxuan Wang, Yizhou Wang, Chi Zhang, Yixin Zhu, Zilong Zheng

http://arxiv.org/abs/2504.13120v2