멀티모달 AI, 복잡한 시각 장면 이해에는 아직 갈 길이 멀다: 최신 연구 결과 보고
최신 연구에 따르면, DALL-E 3, GPT-4V 등 최첨단 멀티모달 AI 모델은 복잡한 시각 장면 이해 능력이 인간 수준에 미치지 못하며, 특히 객체와 관계가 복잡할수록 성능이 크게 저하되는 것으로 나타났습니다. 이는 향후 AI 연구에서 조합적 시각 이해 능력 향상이 중요한 과제임을 시사합니다.

최근 Shuhao Fu 등 연구진이 발표한 논문 "Evaluating Compositional Scene Understanding in Multimodal Generative Models"에 따르면, 최신 멀티모달 생성 모델의 시각 장면 이해 능력은 아직 인간 수준에 미치지 못하는 것으로 나타났습니다. 이 연구는 DALL-E 3, GPT-4V, GPT-4o, Claude Sonnet 3.5, QWEN2-VL-72B, InternVL2.5-38B 등 최첨단 텍스트-이미지 및 멀티모달 비전-언어 모델을 대상으로, 복수의 객체와 관계가 복잡하게 얽혀있는 시각 장면을 얼마나 잘 생성하고 해석하는지 평가했습니다.
연구 결과, 이들 모델은 이전 세대 모델에 비해 상당한 발전을 보였지만, 특히 5개 이상의 객체와 다수의 관계가 포함된 복잡한 장면에서는 인간 참가자에 비해 성능이 현저히 떨어지는 것으로 나타났습니다. 이는 AI 모델이 개별 객체를 인식하는 능력은 향상되었지만, 이들을 조합하여 전체 장면을 이해하는 '조합적 시각 이해' 능력은 아직 부족하다는 것을 시사합니다.
쉽게 말해, AI는 단순한 그림은 잘 그리지만, 복잡한 이야기가 담긴 그림이나 사진을 제대로 이해하고 생성하는 데에는 어려움을 겪는다는 것입니다. 예를 들어, 여러 사람이 다양한 행동을 하는 복잡한 거리 풍경을 정확하게 묘사하거나 이해하는 데는 아직 한계가 있다는 것이죠.
이 연구는 AI의 시각적 이해 능력 향상을 위한 중요한 시사점을 제시합니다. 인간 수준의 시각적 이해 능력을 갖춘 AI를 개발하기 위해서는 객체 인식뿐 아니라, 객체 간의 관계를 정확하게 파악하고 조합하는 능력을 더욱 발전시켜야 할 필요가 있습니다. 이는 향후 AI 연구의 주요 과제 중 하나가 될 것입니다.
주요 내용 요약:
- 연구 대상: DALL-E 3, GPT-4V, GPT-4o, Claude Sonnet 3.5, QWEN2-VL-72B, InternVL2.5-38B 등 최신 멀티모달 모델
- 평가 방법: 복수 객체 및 관계를 포함한 시각 장면 생성 및 해석 능력 평가
- 결과: 복잡한 장면에서 인간 수준에 미치지 못함. 5개 이상 객체, 다수 관계 포함 시 성능 저하 심각
- 시사점: 조합적 시각 이해 능력 향상 필요성 강조
Reference
[arxiv] Evaluating Compositional Scene Understanding in Multimodal Generative Models
Published: (Updated: )
Author: Shuhao Fu, Andrew Jun Lee, Anna Wang, Ida Momennejad, Trevor Bihl, Hongjing Lu, Taylor W. Webb
http://arxiv.org/abs/2503.23125v1