RAG 기반 LLM 추론 속도 혁신: 공유 디스크 KV 캐시 관리 시스템 등장!
소강대학교와 ETRI 공동 연구팀이 RAG 기반 LLM의 추론 속도를 획기적으로 향상시키는 Shared RAG-DCache 시스템을 개발했습니다. 디스크 기반 KV 캐시를 활용하여 처리량을 1571%, 지연 시간을 최대 1265%까지 줄였으며, 이는 LLM 기반 서비스의 효율성을 크게 높이는 혁신적인 성과입니다.

꿈같은 속도의 LLM 추론, 현실이 되다: 공유 디스크 KV 캐시 관리 시스템
최근 급성장하는 대규모 언어 모델(LLM)은 입력 컨텍스트 길이와 모델 크기가 커짐에 따라 추론 지연 시간이 늘어나는 문제에 직면하고 있습니다. 특히, 외부 지식을 활용하여 LLM 응답을 향상시키는 검색 증강 생성(RAG) 기법은 입력 토큰 수를 급증시켜 문제를 더욱 악화시킵니다. 이는 특히 프리필 단계에서 계산 오버헤드를 크게 증가시켜 첫 토큰까지의 시간(TTFT)을 길게 만듭니다.
이러한 문제를 해결하기 위해, 소강대학교 컴퓨터과학과 이형우 교수 연구팀과 ETRI(한국전자통신연구원) 공동 연구팀은 획기적인 해결책을 제시했습니다. 바로 디스크 기반 키-값(KV) 캐시를 활용하여 프리필 단계의 계산 부하를 줄이는 방법입니다.
연구팀은 Shared RAG-DCache 라는 새로운 디스크 기반 공유 KV 캐시 관리 시스템을 개발했습니다. 이 시스템은 다중 인스턴스 LLM RAG 서비스 환경에 적용되어 제한된 자원 환경에서도 처리량과 지연 시간을 모두 개선합니다. Shared RAG-DCache는 RAG에서 사용자 질의와 관련된 문서의 지역성과 LLM 추론 서비스의 대기 지연을 활용합니다. 질의 관련 문서에 대한 디스크 KV 캐시를 사전에 생성하고 저장하여 여러 LLM 인스턴스 간에 공유함으로써 추론 성능을 향상시키는 것이 핵심입니다.
2개의 GPU와 1개의 CPU가 장착된 단일 호스트에서 실험한 결과, Shared RAG-DCache는 자원 구성에 따라 처리량을 1571% 증가시키고, 지연 시간을 최대 1265%까지 감소시키는 놀라운 성과를 달성했습니다. 이는 LLM 기반 서비스의 속도와 효율성을 획기적으로 개선하는 쾌거라 할 수 있습니다. 이는 단순한 성능 향상을 넘어, 더욱 빠르고 효율적인 AI 서비스 구축의 가능성을 열어젖힌 혁신적인 연구입니다.
연구진: 이형우, 김기현, 김진우, 소정민 (소강대학교); 차명훈, 김홍연 (ETRI); 김재준 (Soteria Inc.); 김영재 (소강대학교)
Reference
[arxiv] Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs
Published: (Updated: )
Author: Hyungwoo Lee, Kihyun Kim, Jinwoo Kim, Jungmin So, Myung-Hoon Cha, Hong-Yeon Kim, James J. Kim, Youngjae Kim
http://arxiv.org/abs/2504.11765v1