NQKV: 정규 분포 특성 기반 KV 캐시 양자화 기법으로 LLM 배포의 한계 극복


Zhihang Cai 외 연구팀이 개발한 NQKV 알고리즘은 대규모 언어 모델의 KV 캐시 양자화 문제를 해결하여 메모리 효율과 처리량을 획기적으로 향상시키는 혁신적인 기술입니다. 정규 분포 특성을 활용한 블록 단위 분위수 양자화 기법을 통해 OPT 모델에서 배치 크기 2배 증가, 컨텍스트 길이 4배 증가, 처리량 9.3배 향상이라는 놀라운 결과를 달성했습니다.

related iamge

대규모 언어 모델의 새로운 지평을 여는 NQKV 알고리즘

최근 괄목할 만한 성능을 보이는 대규모 언어 모델(LLM)은 처리량 향상을 위해 더 큰 배치 크기, 작업 요구사항 충족을 위해 더 긴 컨텍스트 길이를 필요로 합니다. 하지만 이는 추론 과정 중 Key-Value(KV) 캐시의 메모리 자원 소모를 크게 증가시켜 LLM 배포의 주요 병목 현상으로 작용해왔습니다.

이 문제를 해결하기 위해 Cai, Zhang, Tan, Wei 연구팀은 NQKV 알고리즘을 개발했습니다. 기존 활성화 함수 양자화는 8비트에 국한되어 있고, 더 낮은 비트로 양자화하면 정확도가 크게 저하되는 문제가 있었습니다. NQKV는 이러한 한계를 뛰어넘기 위해 KV 캐시의 요소 분포를 분석하여 새로운 접근 방식을 제시합니다.

NQKV의 핵심은 KV 캐시 내 각 블록의 요소들이 정규 분포를 따른다는 점을 활용한 블록 단위 분위수 양자화입니다. 이를 통해 정보 이론적으로 최적의 양자화 오류를 달성하여 모델 출력 품질 저하 없이 메모리 공간을 효율적으로 절약할 수 있습니다.

OPT 모델을 이용한 실험 결과는 놀랍습니다. NQKV는 배치 크기를 2배, 컨텍스트 길이를 4배까지 늘리는 것을 가능하게 하였고, KV 캐시를 사용하지 않는 경우와 비교하여 처리량을 무려 9.3배 향상시켰습니다! 이는 LLM의 효율적인 배포 및 실시간 응용에 큰 도약을 의미합니다.

결론적으로, NQKV 알고리즘은 LLM의 메모리 소모 문제를 해결하고 처리량을 획기적으로 향상시키는 혁신적인 기술입니다. 이는 LLM 기반 애플리케이션의 발전에 중요한 기여를 할 것으로 기대됩니다. 향후 연구에서는 다양한 LLM과 하드웨어 플랫폼에서 NQKV의 성능을 더욱 검증하고, 알고리즘의 적용 범위를 확장하는 것이 중요할 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] NQKV: A KV Cache Quantization Scheme Based on Normal Distribution Characteristics

Published:  (Updated: )

Author: Zhihang Cai, Xingjun Zhang, Zhendong Tan, Zheng Wei

http://arxiv.org/abs/2505.16210v1