혁신적인 AI 모델 TULIP: 이미지와 언어 이해의 새로운 지평을 열다
버클리 연구진이 개발한 TULIP 모델은 기존 이미지-텍스트 대조 모델의 한계를 극복하고, 생성적 데이터 증강 등 혁신적인 기술을 통해 ImageNet-1K에서 최고 수준의 제로샷 성능을 달성하는 등 여러 벤치마크에서 최첨단 성능을 기록했습니다. 오픈소스로 공개되어 향후 AI 기술 발전에 크게 기여할 것으로 기대됩니다.

이미지와 언어의 완벽한 조화: TULIP 모델의 놀라운 성능
CLIP이나 SigLIP과 같은 기존의 이미지-텍스트 대조 모델은 괄목할 만한 성과를 거두었지만, 개체 수 세기, 깊이 추정, 세밀한 개체 인식과 같은 시각 중심 작업에서는 어려움을 겪었습니다. 이는 언어 정렬에 집중하느라 시각적 이해가 부족했기 때문입니다. 반대로, 시각에 초점을 맞춘 모델은 시각 정보 처리에는 뛰어나지만, 언어 이해에는 약점을 보였습니다.
이러한 한계를 극복하기 위해 등장한 것이 바로 TULIP 모델입니다. 캘리포니아대학교 버클리캠퍼스 연구진(Zineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan)이 개발한 TULIP은 기존 CLIP 유사 모델을 대체할 수 있는 오픈소스 모델입니다.
TULIP의 핵심은 무엇일까요? 바로 생성적 데이터 증강, 향상된 이미지-이미지 및 텍스트-텍스트 대조 학습, 그리고 이미지/텍스트 재구성 규제입니다. 이러한 기술을 통해 TULIP은 세밀한 시각적 특징을 학습하면서 동시에 전반적인 의미적 정렬을 유지합니다. 10억 개가 넘는 매개변수를 자랑하는 TULIP은 여러 벤치마크에서 최첨단(SOTA) 성능을 넘어섰습니다.
놀라운 성과:
- ImageNet-1K에서 최고 수준의 제로샷 성능 달성: 사전 훈련 없이도 뛰어난 성능을 보였습니다.
- RxRx1에서 SigLIP 대비 2배 이상의 성능 향상: 소수의 샘플만으로도 정확도가 크게 향상되었습니다.
- MMVP에서 SigLIP 대비 3배 이상의 높은 점수: 이미지-언어 모델의 성능을 크게 개선했습니다.
TULIP의 코드와 체크포인트는 https://tulip-berkeley.github.io 에서 확인할 수 있습니다. 이미지와 언어 이해의 새로운 지평을 연 TULIP 모델의 등장은 AI 기술 발전에 큰 획을 그을 것으로 기대됩니다. 앞으로 TULIP을 기반으로 한 다양한 응용 프로그램의 등장이 예상됩니다.
Reference
[arxiv] TULIP: Towards Unified Language-Image Pretraining
Published: (Updated: )
Author: Zineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan
http://arxiv.org/abs/2503.15485v2