멀티-LoRA LLM 서빙 성능 혁신: FASTLIBRA 등장!
Hang Zhang 등 연구진이 개발한 FASTLIBRA는 멀티-LoRA 기반 LLM의 서빙 성능을 획기적으로 향상시키는 시스템입니다. 의존성 인식 캐시 관리와 성능 중심 캐시 스와핑 기법을 통해 TTFT를 평균 63.4% 단축시키는 놀라운 성능 향상을 달성했습니다.

최근 특정 작업에 맞춘 대규모 언어 모델(LLM) 활용이 증가하면서, 멀티-LoRA(Multiple Low-Rank Adapters)가 주목받고 있습니다. 하지만, 멀티-LoRA 서빙 시스템은 Time-To-First-Token(TTFT, 첫 토큰 생성 시간)과 같은 서빙 성능 최적화에 어려움을 겪어왔습니다. LoRA 어댑터와 KV 캐시의 캐싱 전략이 사용 패턴을 제대로 반영하지 못했기 때문입니다.
이러한 문제를 해결하기 위해, Hang Zhang, Jiuchen Shi, Yixiao Wang, Quan Chen, Yizhou Shan, 그리고 Minyi Guo 연구진이 FASTLIBRA라는 혁신적인 멀티-LoRA 캐싱 시스템을 개발했습니다. FASTLIBRA는 의존성 인식 캐시 관리자와 성능 중심 캐시 스와퍼로 구성되어 있습니다.
의존성 인식 캐시 관리자는 통합 캐싱 풀 내에서 추론 과정 중 LoRA와 KV 캐시 간의 사용 의존성을 지속적으로 관리합니다. 이는 LoRA와 KV 캐시의 캐싱 전략을 사용 패턴에 최적으로 맞추어, 불필요한 캐싱을 줄이고, 필요한 정보에 대한 접근 속도를 높이는 데 기여합니다.
성능 중심 캐시 스와퍼는 HBM(High Bandwidth Memory)이 유휴 상태인지 또는 사용 중인지에 따라 통합 비용 모델을 기반으로 LoRA와 KV 캐시의 스왑 인/아웃을 결정합니다. 이를 통해 HBM 자원을 효율적으로 사용하고, TTFT를 최소화합니다.
연구 결과는 놀랍습니다. FASTLIBRA는 기존 최첨단 시스템과 비교하여 TTFT를 평균 63.4% 감소시켰습니다. 이는 멀티-LoRA 기반 LLM의 실시간 응답 속도를 비약적으로 향상시킨다는 것을 의미합니다. FASTLIBRA의 등장은 멀티-LoRA 기반 LLM 응용의 실용성을 한층 높여, 향후 다양한 분야에서의 LLM 활용을 가속화할 것으로 기대됩니다.
핵심: FASTLIBRA는 LoRA와 KV 캐시의 사용 의존성을 고려한 캐싱 전략과 성능 중심의 스와핑 기법을 통해 멀티-LoRA 기반 LLM의 서빙 성능을 획기적으로 개선했습니다. TTFT를 63.4% 단축시킨 실험 결과는 그 효과를 명확하게 보여줍니다.
Reference
[arxiv] Improving the Serving Performance of Multi-LoRA Large Language Models via Efficient LoRA and KV Cache Management
Published: (Updated: )
Author: Hang Zhang, Jiuchen Shi, Yixiao Wang, Quan Chen, Yizhou Shan, Minyi Guo
http://arxiv.org/abs/2505.03756v1