혁신적인 KV 캐시 관리 전략, LagKV: 대규모 언어 모델의 효율성 극대화
중국 상해상업은행 인공지능 연구소의 연구진이 개발한 LagKV는 어텐션 메커니즘 없이 KV 캐시 간의 직접 비교를 통해 중요 토큰을 식별하는 혁신적인 KV 할당 전략입니다. LongBench와 PasskeyRetrieval 실험 결과, 기존 방법 대비 뛰어난 성능과 효율성을 입증하여 대규모 언어 모델의 실용성 및 확장성 향상에 크게 기여할 것으로 기대됩니다.

대규모 언어 모델(LLM)의 장문 추론 과정에서 Key-Value(KV) 캐시의 크기 증가는 성능과 비용 사이의 딜레마를 야기합니다. 기존의 많은 연구들은 어텐션 가중치를 활용하여 비중요 토큰을 제거하는 방식을 채택했지만, 이는 추론 인프라의 상당한 수정과 높은 계산 비용을 요구하는 단점이 있었습니다.
중국 상해상업은행 인공지능 연구소의 Liang Manlai 등 연구진은 이러한 문제를 해결하기 위해 LagKV라는 혁신적인 KV 할당 전략을 제안했습니다. LagKV는 어텐션 메커니즘에 전혀 의존하지 않는 방법으로, KV 간의 직접적인 비교만을 통해 중요 토큰을 식별합니다. 이는 기존 방법과 달리 주요 추론 플랫폼에 손쉽게 통합될 수 있으며, 계산 비용 또한 크게 절감됩니다.
연구진은 LongBench와 PasskeyRetrieval 데이터셋을 이용하여 LagKV의 성능을 평가했습니다. 그 결과, 압축 비율이 2배일 때 성능 저하가 거의 없었으며, 8배 압축 시에도 원래 모델 성능의 약 90%를 유지했습니다. 특히 64자리 암호 검색 작업에서는, 동일한 압축 비율에서 기존의 어텐션 가중치 기반 방법인 H₂O보다 60% 이상 높은 성능을 보였습니다.
LagKV의 코드는 GitHub 에서 공개되어 있으며, LLM의 효율적인 추론을 위한 새로운 가능성을 제시합니다. 이는 단순히 KV 캐시 크기를 줄이는 것 이상으로, LLM의 실용성 및 확장성을 크게 향상시킬 수 있는 획기적인 기술이라고 볼 수 있습니다. 향후 연구에서는 다양한 LLM 및 응용 분야에 대한 LagKV의 적용 가능성을 탐구하는 것이 중요할 것입니다. 또한, LagKV의 성능 향상과 더불어 에너지 효율 개선 및 환경 보호에도 기여할 수 있는 가능성을 더욱 연구해야 합니다.
Reference
[arxiv] LagKV: Lag-Relative Information of the KV Cache Tells Which Tokens Are Important
Published: (Updated: )
Author: Manlai Liang, JiaMing Zhang, Xiong Li, Jinlong Li
http://arxiv.org/abs/2504.04704v1