벡터 검색 응답 속도 2배 향상! RAG 시스템의 혁신, VectorLiteRAG
김준겸, 디브야 마하잔 박사 연구팀이 개발한 VectorLiteRAG는 RAG 시스템의 벡터 검색과 LLM 서빙을 통합 최적화하여 벡터 검색 응답 속도를 2배 향상시키고 TTFT를 크게 단축했습니다. 벡터 데이터베이스의 접근 편향성을 이용한 적응형 메모리 분배 전략이 핵심이며, GPU 메모리 효율적 사용과 통계적 모델 기반 제어가 성능 향상의 주요 원인입니다.

RAG 시스템의 속도 향상을 위한 혁신적인 접근: VectorLiteRAG
최근 급속도로 발전하는 인공지능(AI) 분야에서, 대규모 언어 모델(LLM) 기반의 질의응답 시스템은 날마다 그 중요성을 더해가고 있습니다. 특히, 외부 지식을 활용하여 LLM의 응답 품질을 높이는 Retrieval Augmented Generation (RAG) 시스템은 큰 주목을 받고 있습니다. 하지만, 기존 RAG 시스템은 벡터 검색과 LLM 서빙 최적화가 분리되어 진행되면서 전체 시스템 성능이 저하되는 문제점을 안고 있었습니다.
김준겸 박사와 디브야 마하잔 박사가 이끄는 연구팀은 이러한 문제를 해결하기 위해 VectorLiteRAG 라는 혁신적인 벡터 인덱스 분할 메커니즘을 개발했습니다. VectorLiteRAG는 CPU와 GPU를 활용하여 벡터 검색과 LLM 서빙을 통합적으로 최적화함으로써 시스템 응답 속도를 크게 향상시키는 것을 목표로 합니다.
핵심은 벡터 데이터베이스의 접근 편향성에 있습니다. 일부 클러스터는 다른 클러스터보다 훨씬 더 자주 쿼리된다는 점에 착안하여, VectorLiteRAG는 자주 접근되는 클러스터의 벡터 인덱스를 GPU HBM 메모리에 우선적으로 배치하는 적응형 메모리 분배 전략을 채택했습니다. 이를 통해 LLM과 벡터 검색 간의 균형을 유지하고, Time-To-First-Token (TTFT)을 줄여 사용자 경험을 향상시켰습니다. 통계적 모델을 활용하여 메모리 할당과 작업 분배를 지능적으로 제어하는 것 또한 VectorLiteRAG의 중요한 특징입니다.
연구 결과, VectorLiteRAG는 벡터 검색 응답 속도를 2배 향상시키고, RAG 시스템의 TTFT를 크게 단축하는 놀라운 성과를 달성했습니다. 이는 GPU 메모리 자원의 효율적인 활용과 통계적 모델 기반의 지능형 제어가 시너지를 발휘한 결과입니다.
VectorLiteRAG는 단순한 성능 향상을 넘어, RAG 시스템의 실용성과 사용자 경험을 획기적으로 개선하는 중요한 발걸음이라고 할 수 있습니다. 앞으로 이러한 기술 발전이 더욱 가속화되어 더욱 빠르고 효율적인 AI 시스템 구축에 기여할 것으로 기대됩니다.
Reference
[arxiv] An Adaptive Vector Index Partitioning Scheme for Low-Latency RAG Pipeline
Published: (Updated: )
Author: Junkyum Kim, Divya Mahajan
http://arxiv.org/abs/2504.08930v1