TopV: 빠르고 메모리 효율적인 다중 모달 비전 언어 모델을 위한 혁신적인 토큰 가지치기 기법


TopV는 시각 인식 비용 함수를 기반으로 중요도가 낮은 시각 토큰을 효과적으로 제거하여 VLMs의 추론 속도와 메모리 효율을 향상시키는 혁신적인 토큰 가지치기 기법입니다. 추가 훈련 없이도 기존 방법들을 능가하는 성능을 보이며, VLMs의 실용화에 크게 기여할 것으로 예상됩니다.

related iamge

최근 비전-언어 모델(VLMs)은 괄목할 만한 성능 향상을 보였지만, 방대한 시각 입력 토큰으로 인해 추론 과정에서 막대한 계산 자원을 필요로 하는 문제점을 안고 있습니다. 기존 연구들은 시각 토큰이 텍스트 토큰보다 주의를 덜 받는다는 점에 착안하여 토큰 가지치기를 시도했지만, 탐욕적 휴리스틱 기준에 대한 의존성과 FlashAttention 및 KV 캐시와의 비호환성 등의 문제에 직면했습니다.

Cheng Yang 등 11명의 연구진이 발표한 논문 “TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model”은 이러한 문제를 해결하기 위해 TopV라는 혁신적인 기법을 제시합니다. TopV는 추가적인 훈련이나 미세 조정 없이 효율적인 가지치기를 달성합니다. 주목할 점은 TopV가 주의 점수에 의존하지 않는다는 것입니다. 대신, 토큰 가지치기를 최적화 문제로 공식화하여 중요한 시각 토큰을 정확하게 식별합니다.

TopV의 핵심은 시각 인식 비용 함수입니다. 이 함수는 특징 유사성, 상대적 공간 거리, 절대 중심 거리 등을 고려하여 각 소스 시각 토큰의 중요도를 측정합니다. 이를 통해 중요도가 낮은 토큰을 효과적으로 제거하여 추론 속도를 높이고 메모리 사용량을 줄입니다. 또한, 사전 채우기 단계에서 한 번만 가지치기를 수행하므로 KV 캐시 크기를 효과적으로 줄일 수 있습니다. FlashAttention과의 호환성도 유지됩니다.

광범위한 실험 결과, TopV는 기존의 토큰 가지치기 방법들을 능가하는 성능을 보였습니다. 이는 TopV의 효율성과 효과를 입증하는 것입니다. TopV는 VLMs의 추론 속도와 메모리 효율을 크게 향상시킬 잠재력을 가진 혁신적인 기술로 평가됩니다. 앞으로 VLMs의 실용화에 중요한 기여를 할 것으로 기대됩니다.

핵심 내용 요약:

  • 문제: 기존 VLMs의 추론 과정에서 많은 시각 토큰으로 인한 높은 계산 자원 소모
  • 해결책: TopV - 추가 훈련 없이 효율적인 토큰 가지치기를 수행하는 최적화 기법
  • 핵심 기술: 시각 인식 비용 함수 (특징 유사성, 상대적 공간 거리, 절대 중심 거리 고려)
  • 결과: 기존 방법 대비 우수한 성능, 빠른 추론 속도 및 낮은 메모리 사용량 달성

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model

Published:  (Updated: )

Author: Cheng Yang, Yang Sui, Jinqi Xiao, Lingyi Huang, Yu Gong, Chendi Li, Jinghua Yan, Yu Bai, Ponnuswamy Sadayappan, Xia Hu, Bo Yuan

http://arxiv.org/abs/2503.18278v1