InternVL-X: 효율적인 시각 토큰 압축으로 InternVL 시리즈의 성능과 속도 향상
InternVL-X는 세 가지 혁신적인 시각 토큰 압축 기법(PVTC, LVTC, RVTC)을 통해 멀티모달 대규모 언어 모델의 성능과 효율성을 크게 향상시켰습니다. 7개의 공개 벤치마크에서 최첨단 성능을 달성했으며, 실용적인 멀티모달 AI 개발에 중요한 진전을 이루었습니다.

InternVL-X: 멀티모달 AI의 새로운 지평을 열다
최근 멀티모달 대규모 언어 모델(MLLM)이 급부상하고 있지만, 방대한 시각 토큰 처리로 인한 높은 연산 비용과 시간 지연은 여전히 풀어야 할 과제였습니다. 중국과학원 자동화연구소 연구팀은 이러한 문제에 대한 해결책으로 InternVL-X를 제시했습니다. InternVL-X는 세 가지 혁신적인 시각 토큰 압축 기법을 통해 기존 InternVL 모델의 성능과 효율성을 비약적으로 향상시켰습니다.
세 가지 핵심 기술: PVTC, LVTC, RVTC
1. PVTC (Point-to-Region Visual Token Compression): 기존의 단순한 시각-언어 매핑 방식 대신, 인접한 시각 임베딩을 통합하여 지역적 쿼리를 생성하고, 변환된 CLS 토큰을 전역적 쿼리로 활용하는 새로운 방식입니다. 이를 통해 지역 및 전역 정보를 효과적으로 결합하여 시각적 특징을 더욱 정확하게 변환합니다. 마치 사진의 세부 요소와 전체적인 맥락을 동시에 고려하는 것과 같습니다.
2. LVTC (Layer-wise Visual Token Compression): LLM의 얕은 계층에서는 토큰을 압축하고, 깊은 계층에서는 업샘플링 및 잔차 연결을 통해 다시 확장하는 계층적 압축 방식입니다. 이 방법은 모델의 연산 효율을 극대화하면서 성능 저하를 최소화합니다. 마치 건물의 기초를 튼튼하게 다지면서 동시에 높이를 높이는 것과 같습니다.
3. RVTC (Region-based Visual Token Compression): 영상의 면적 또는 길이 필터링을 통해 시각 토큰의 수를 동적으로 조절하는 효율적인 고해상도 슬라이싱 기법입니다. RVTC는 훈련 효율을 크게 높이면서 성능 저하를 최소화합니다. 마치 필요한 부분만 확대하여 자세히 살펴보는 것과 같습니다.
놀라운 성능 향상
이러한 세 가지 기술을 결합한 InternVL-X는 20% 이하의 시각 토큰만 사용하면서도 7개의 공개 MLLM 벤치마크에서 최첨단 성능을 달성했습니다. 12개 과제에 걸쳐 평균 2.34%의 성능 향상을 기록하여, 멀티모달 AI의 실용화에 큰 진전을 가져왔습니다. 이는 단순한 성능 향상을 넘어, AI의 실제 응용 가능성을 넓히는 중요한 이정표가 될 것입니다.
미래를 향한 전망
InternVL-X의 성공은 효율적인 멀티모달 AI 개발의 새로운 가능성을 보여줍니다. 앞으로 더욱 발전된 기술을 통해 더욱 빠르고 강력하며, 동시에 효율적인 멀티모달 AI가 등장할 것으로 기대됩니다. InternVL-X는 이러한 미래를 향한 중요한 한 걸음입니다.
Reference
[arxiv] InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression
Published: (Updated: )
Author: Dongchen Lu, Yuyao Sun, Zilu Zhang, Leping Huang, Jianliang Zeng, Mao Shu, Huo Cao
http://arxiv.org/abs/2503.21307v1