텍스트-이미지 생성 AI, 사용자의 프롬프트가 다양성을 좌우한다!


본 연구는 600만 개 이상의 프롬프트 데이터 분석을 통해 텍스트-이미지 생성 모델에서 사용자의 프롬프트 언어 선택이 생성 결과의 다양성에 미치는 영향을 규명했습니다. 시간 경과에 따라 프롬프트 언어가 동질화되고, 이는 시각적 다양성 감소로 이어짐을 보여주는 중요한 연구 결과입니다.

related iamge

텍스트-이미지 생성 AI: 사용자의 프롬프트가 다양성을 좌우한다!

최근 텍스트-이미지 생성 모델(TTI)이 큰 인기를 얻고 있지만, 단순한 편향성 논의를 넘어 사용자와 AI의 상호작용에 대한 심층적인 분석이 필요하다는 목소리가 높아지고 있습니다. Maria-Teresa De Rosa Palmini와 Eva Cetinic 연구팀은 이러한 필요성에 착안하여, 사용자의 프롬프트 언어가 생성 이미지의 다양성에 미치는 영향을 분석한 흥미로운 연구 결과를 발표했습니다.

600만 개 프롬프트의 비밀: 동질화되는 언어, 제한되는 다양성

연구팀은 CivitAI 플랫폼의 Civiverse 데이터셋에서 7개월간 수집된 600만 개 이상의 프롬프트를 분석했습니다. 놀랍게도, 사용자들은 시간이 지날수록 인기 있는 태그와 설명어를 반복적으로 사용하는 경향을 보였습니다. 이는 사용자 참여가 증가할수록 프롬프트 언어가 동질화됨을 의미합니다. 실제로, 제출된 프롬프트의 40-50%가 반복되는 프롬프트였습니다. 하지만, 주제 선호도는 비교적 안정적인 것으로 나타나, 특정 주제와 표면적 미학에 대한 집중을 보여주었습니다.

Vendi Score로 밝혀낸 진실: 언어의 반복, 다양성의 감소

연구팀은 Vendi score를 사용하여 생성 이미지의 시각적 다양성을 정량적으로 측정했습니다. 그 결과, 프롬프트의 어휘 유사성과 생성 이미지의 시각적 유사성 간에 명확한 상관관계가 있음을 확인했습니다. 즉, 언어적 반복이 시각적 다양성 감소로 이어진다는 것을 증명한 것입니다. 이는 모델 자체의 편향성뿐 아니라, 사용자의 행동이 AI 생성 이미지의 다양성에 큰 영향을 미친다는 것을 시사합니다.

더 나은 AI를 위한 제언: 다양성을 위한 언어적 실험

이 연구는 단순히 문제점을 지적하는 데 그치지 않고, TTI 시스템 내에서 더 큰 언어적 및 주제적 실험을 장려하기 위한 도구와 관행의 필요성을 강조합니다. 더욱 포괄적이고 다양한 AI 생성 콘텐츠를 위해서는 사용자의 창의적인 프롬프트 활용이 필수적임을 보여줍니다. 이는 AI 개발자뿐 아니라, AI를 활용하는 모든 사용자에게 중요한 메시지입니다. 앞으로 AI가 생성하는 이미지의 다양성을 확보하기 위한 노력이 더욱 중요해질 것입니다.


(참고) 연구진은 사용자를 프롬프트 언어의 실험 정도에 따라 세 그룹(일관된 반복자, 가끔 반복자, 비반복자)으로 분류하여 분석했습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Exploring Language Patterns of Prompts in Text-to-Image Generation and Their Impact on Visual Diversity

Published:  (Updated: )

Author: Maria-Teresa De Rosa Palmini, Eva Cetinic

http://arxiv.org/abs/2504.14125v1