멀티모달 LLM의 시각 레이어 선택: 새로운 지평을 열다


본 기사는 중국과학원 자동화연구소 연구팀의 최신 연구를 소개하며, 멀티모달 대규모 언어 모델(MLLM)에서 시각 레이어 선택의 중요성과 최적화 방법에 대해 논의합니다. 연구팀은 레이어별 표현 유사성 분석을 통해 CLIP-ViT 레이어의 역할을 명확히 규명하고, 작업 유형에 따른 최적 레이어 조합을 제시하여 MLLM 성능 향상에 기여했습니다.

related iamge

최근 멀티모달 대규모 언어 모델(MLLM)이 괄목할 만한 성능을 보여주고 있습니다. 특히 CLIP-ViT를 시각 인코더로 사용하는 경우가 많은데, 이는 CLIP-ViT가 뛰어난 텍스트-이미지 정합 능력을 가지고 있기 때문입니다. 하지만 기존 연구들은 CLIP-ViT의 각 레이어가 다른 유형의 정보를 담고 있다는 점을 시사했음에도 불구하고, 대부분의 MLLM은 경험적 기준에 따라 시각 피처를 선택하는 데 그쳤습니다.

중국과학원 자동화연구소 연구팀의 새로운 연구는 이러한 문제에 대한 해결책을 제시합니다. Chen et al.(2025)의 논문 "Rethinking Visual Layer Selection in Multimodal LLMs"은 레이어별 표현 유사성 접근 방식(Layer-wise Representation Similarity approach) 을 제안하여 CLIP-ViT 레이어들을 얕은, 중간, 깊은 계층으로 체계적으로 분류하고, 각 계층의 MLLM 성능에 미치는 영향을 평가합니다.

연구팀은 1.4B에서 7B 파라미터에 이르는 다양한 LLaVA 스타일 모델을 훈련시키고, 10개의 데이터셋과 4가지 작업을 통해 광범위한 실험을 수행했습니다. 그 결과 놀라운 발견을 얻었습니다.

  • 깊은 레이어는 OCR 작업에 필수적입니다. 깊은 레이어는 텍스트 인식에 중요한 역할을 한다는 것을 확인했습니다.
  • 얕은 및 중간 레이어는 계산, 위치 지정 및 객체 식별 등 추론 작업에서 깊은 레이어보다 훨씬 우수한 성능을 보였습니다. 세밀한 시각 정보 처리에 얕은 레이어가 효과적임을 보여줍니다.
  • 얕은, 중간 및 깊은 레이어의 가벼운 피처 융합은 특수화된 융합 기준 및 단일 레이어 선택보다 일관되게 우수한 성능을 달성하며, 10개 데이터셋 중 9개에서 성능 향상을 보였습니다. 이를 통해 다양한 레이어의 정보를 효과적으로 통합하는 것이 중요함을 알 수 있습니다.

이 연구는 MLLM에서 시각 레이어 선택에 대한 최초의 원칙적인 연구이며, MLLM을 위한 시각적 표현 학습에 대한 심층적인 조사의 토대를 마련했습니다. 본 연구는 단순히 경험적 선택이 아닌, 데이터 기반의 체계적인 접근을 통해 MLLM의 성능을 향상시키는 중요한 발걸음을 내딛었습니다. 앞으로 이 연구 결과를 바탕으로 MLLM의 시각 정보 처리 방식에 대한 이해가 더욱 깊어질 것으로 기대됩니다. 특히 다양한 작업 유형에 맞춰 최적의 레이어 조합을 선택하는 기술은 MLLM 발전에 큰 기여를 할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Rethinking Visual Layer Selection in Multimodal LLMs

Published:  (Updated: )

Author: Haoran Chen, Junyan Lin, Xinhao Chen, Yue Fan, Xin Jin, Hui Su, Jianfeng Dong, Jinlan Fu, Xiaoyu Shen

http://arxiv.org/abs/2504.21447v1