AirCache: 효율적인 대규모 비주얼 언어 모델 추론을 위한 혁신적인 KV 캐시 압축 기술


AirCache는 대규모 비주얼 언어 모델의 추론 속도를 크게 향상시키는 혁신적인 KV 캐시 압축 기술입니다. 시각 토큰의 중복성을 제거하고 적응적 계층별 예산 할당 전략을 통해 뛰어난 효율성을 달성하며, 기존 방법 대비 29%~66%의 디코딩 지연 시간 단축과 90%의 시각적 KV 캐시 감소 효과를 보였습니다.

related iamge

AirCache: 대규모 비주얼 언어 모델의 추론 속도를 획기적으로 높이다

최근 괄목할 만한 추론 능력과 일반화 성능으로 주목받는 대규모 비주얼 언어 모델(LLVMs)은 방대한 시각 토큰 처리와 장문의 컨텍스트 생성으로 인해 막대한 계산 오버헤드와 키-밸류(KV) 캐시 수요 증가라는 심각한 병목 현상에 직면해 있습니다.

이러한 문제를 해결하기 위해 등장한 것이 바로 AirCache입니다. 황카이 등 연구진이 제안한 AirCache는 LVLMs 추론 속도를 높이기 위한 혁신적인 KV 캐시 압축 방법입니다. 연구진은 LVLMs의 어텐션 메커니즘 내 시각 및 텍스트 토큰 간의 상관관계를 체계적으로 조사하여 캐시된 시각 토큰의 상당한 중복성을 발견했습니다.

핵심은 바로 이 중복성의 제거입니다. AirCache는 전략적으로 불필요한 시각 토큰을 제거하여 모델 성능을 유지하면서 컨텍스트 생성 속도를 크게 높입니다. 이를 위해 시각 요소의 중요도를 평가하는 '엘리트 관찰 창(elite observation window)'을 도입, 강화된 다중 관점 일관성을 갖춘 안정적인 인터모달 관련성 모델링에 집중합니다. 또한, 토큰 중요도 분포의 강도와 비대칭성을 활용하는 적응적 계층별 예산 할당 전략을 개발하여 균일 할당보다 훨씬 효율적인 성능을 보여줍니다.

실험 결과는 놀랍습니다. 다양한 LVLMs과 벤치마크에 대한 포괄적인 평가 결과, AirCache는 전체 캐시와 비교해도 동등한 성능을 유지하면서 시각적 KV 캐시의 10%만 사용하여 다양한 배치 크기와 프롬프트 길이에서 디코딩 지연 시간을 29%~66%까지 단축했습니다. 특히, 캐시 보유율이 감소할수록 기존 방법보다 훨씬 더 큰 성능 향상을 보였습니다.

AirCache는 LVLMs의 효율성을 획기적으로 높이는 기술로, 더욱 빠르고 효율적인 AI 애플리케이션 개발에 중요한 전환점을 제시할 것으로 기대됩니다. 향후 더욱 다양한 분야에서 AirCache의 활용을 기대해볼 수 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference

Published:  (Updated: )

Author: Kai Huang, Hao Zou, Bochen Wang, Ye Xi, Zhen Xie, Hao Wang

http://arxiv.org/abs/2503.23956v1