FlowKV: 초고속 AI 추론의 혁명, 96%의 지연 감소를 이뤄내다!
FlowKV는 KV 캐시 전송 지연을 획기적으로 줄이고 부하 인식 스케줄러를 통해 하드웨어 자원 활용을 극대화하여 대규모 언어 모델 추론 속도를 최대 48.9%까지 향상시키는 혁신적인 분산 추론 프레임워크입니다.

FlowKV: 대규모 언어 모델 추론의 속도를 혁신적으로 높이다!
최근 Weiqing Li를 비롯한 8명의 연구진이 발표한 논문, "FlowKV: A Disaggregated Inference Framework with Low-Latency KV Cache Transfer and Load-Aware Scheduling" 에서는 대규모 언어 모델(LLM) 추론의 혁신적인 프레임워크인 FlowKV를 소개합니다. 기존의 분산 추론 방식은 사전 채우기(Prefill, P)와 디코딩(Decode, D) 단계를 분리하여 처리량을 높이는 데 집중했지만, KV 캐시 전송 지연이라는 큰 걸림돌에 직면했습니다. 블록 단위 호출 방식과 불연속적인 KV 캐시 메모리 할당으로 전송 커널 호출 횟수가 증가하고, P와 D 노드의 역할이 고정되어 계산 불균형이 발생하는 문제가 있었습니다.
하지만 FlowKV는 다릅니다! KV 캐시 전송 지연 시간을 무려 96% 감소시켜 0.944초에서 0.053초로 단축, 전체 요청 지연 시간에서 전송 시간의 비중을 거의 없앴습니다. 이는 KV 캐시 전송을 최적화한 결과입니다. 더 나아가, 부하 인식 스케줄러(Load-Aware Scheduler) 를 도입하여 요청 스케줄링의 균형을 맞추고 P와 D 노드의 할당을 유연하게 조정합니다. 이를 통해 하드웨어 자원 활용을 극대화하고, 정상적인 상황뿐 아니라 계산 불균형이나 극심한 과부하 상황에서도 최고의 시스템 처리량을 달성합니다.
LongBench 데이터셋을 기반으로 한 실험 결과, FlowKV는 기존 방식에 비해 추론 속도를 15.2%~48.9% 향상시켰으며, 이기종 GPU를 사용하는 애플리케이션도 지원합니다. 이는 단순한 속도 향상을 넘어, AI 추론의 실용성과 효율성을 크게 높이는 획기적인 발전입니다.
FlowKV의 등장은 AI 분야, 특히 대규모 언어 모델의 실시간 응용 분야에 큰 파장을 불러일으킬 것으로 예상됩니다. 더 빠르고 효율적인 AI 시스템을 향한 한 걸음 더 나아간 혁신적인 기술이라 할 수 있습니다.
핵심 내용:
- KV 캐시 전송 지연 96% 감소 (0.944초 → 0.053초)
- 추론 속도 15.2%~48.9% 향상 (LongBench 데이터셋 기준)
- 부하 인식 스케줄러를 통한 하드웨어 자원 활용 극대화
- 이기종 GPU 지원
Reference
[arxiv] FlowKV: A Disaggregated Inference Framework with Low-Latency KV Cache Transfer and Load-Aware Scheduling
Published: (Updated: )
Author: Weiqing Li, Guochao Jiang, Xiangyong Ding, Zhangcheng Tao, Chuzhan Hao, Chenfeng Xu, Yuewei Zhang, Hao Wang
http://arxiv.org/abs/2504.03775v1