KeepKV: 효율적인 LLM 추론을 위한 혁신적인 KV 캐시 압축 기술
본 기사는 중국과학원 연구진이 개발한 KeepKV라는 혁신적인 KV 캐시 압축 기술을 소개합니다. KeepKV는 기존 방식의 한계를 극복하여 LLM 추론의 효율성을 획기적으로 높이고, 출력 왜곡을 최소화하며 우수한 성능을 유지합니다. 실험 결과, 메모리 사용량 감소, 추론 처리량 증가, 생성 품질 향상 등 괄목할 만한 성과를 보였습니다.

거대 언어 모델의 효율성 혁명: KeepKV 등장
최근 급증하는 거대 언어 모델(LLM)의 활용은 그 어느 때보다 높은 효율적인 추론 기술을 요구하고 있습니다. 하지만 LLM 추론의 병목 현상 중 하나는 바로 계속해서 증가하는 키-밸류(KV) 캐시의 크기입니다. 이에 따라 KV 캐시 압축은 LLM 성능 향상에 있어 매우 중요한 연구 분야로 떠오르고 있습니다.
기존의 KV 캐시 압축 방법들은 주의 점수나 위치 정보를 기반으로 중요도가 낮은 KV 캐시 항목을 선택적으로 제거하는 방식을 사용해 왔습니다. 하지만 이러한 방식은 정보 손실과 환각(hallucination) 현상을 유발하는 단점을 가지고 있었습니다. 최근에는 버려질 KV 쌍을 병합하여 정보 손실을 줄이는 병합 기반 전략이 연구되었지만, 이러한 기존 방식들은 병합 전후의 주의 분포에 불일치를 초래하여 출력 왜곡과 성능 저하를 야기했습니다.
KeepKV: 출력 왜곡 제거와 성능 향상의 조화
중국과학원(CAS) 산하 연구진들은 이러한 문제를 해결하기 위해 KeepKV라는 혁신적인 적응형 KV 캐시 병합 방법을 제안했습니다. KeepKV는 엄격한 메모리 제약 하에서도 성능을 유지하면서 출력 왜곡을 제거하는 데 초점을 맞추고 있습니다.
KeepKV의 핵심은 두 가지 새로운 메커니즘에 있습니다.
- Electoral Votes 메커니즘: 병합 이력을 기록하고 주의 점수를 적응적으로 조정하여 정보 손실을 최소화합니다. 이는 마치 선거에서 투표 결과를 반영하여 의사 결정을 하는 것과 유사합니다. 중요한 정보는 더 많은 “투표”를 얻어 보존될 확률이 높아집니다.
- Zero Inference-Perturbation Merging 메서드: 캐시 병합으로 인한 주의 점수 손실을 보상하고 주의 일관성을 유지하여 출력 왜곡을 근본적으로 해결합니다. 이는 마치 퍼즐 조각을 정교하게 맞추듯이, 정보의 흐름을 매끄럽게 유지하는 기술입니다.
놀라운 성능 향상: 실험 결과
다양한 벤치마크와 LLM 아키텍처를 사용한 광범위한 실험 결과, KeepKV는 메모리 사용량을 크게 줄이고 추론 처리량을 2배 이상 향상시키는 동시에 10%의 KV 캐시 예산으로도 우수한 생성 품질을 유지하는 것으로 나타났습니다. 이는 LLM의 효율성과 성능을 동시에 향상시키는 획기적인 결과입니다.
미래 전망
KeepKV의 등장은 LLM 추론의 효율성을 한 단계 끌어올리는 중요한 이정표입니다. 앞으로 KeepKV는 더욱 발전된 형태로 LLM의 상용화 및 다양한 분야에서의 활용을 가속화하는 데 기여할 것으로 예상됩니다. 특히 메모리 제약이 심각한 모바일 및 임베디드 환경에서의 LLM 활용에 큰 영향을 미칠 것으로 기대됩니다.
Reference
[arxiv] KeepKV: Eliminating Output Perturbation in KV Cache Compression for Efficient LLMs Inference
Published: (Updated: )
Author: Yuxuan Tian, Zihan Wang, Yebo Peng, Aomufei Yuan, Zhiming Wang, Bairen Yi, Xin Liu, Yong Cui, Tong Yang
http://arxiv.org/abs/2504.09936v1