혁신적인 LLM 서빙 시스템 BROS: 실시간 및 최선형 요청의 완벽한 조화
중국 과학원 연구팀이 개발한 BROS 시스템은 실시간 및 최선형 요청을 효율적으로 처리하는 혁신적인 LLM 서빙 시스템으로, 지연 시간 단축 및 서비스 수준 목표 달성률 향상에 큰 효과를 보입니다.

최근 대규모 언어 모델(LLM)의 눈부신 발전은 단일 모델에서 다양한 생성 작업을 가능하게 했습니다. OpenAI의 ChatGPT와 같은 실제 서비스는 대화형 애플리케이션(실시간 또는 RT 요청)을 위한 지연 시간에 민감한 요청과 백오피스 처리(최선형 또는 BE 요청)를 위한 처리량 중심의 요청을 동시에 처리하는 복잡한 하이브리드 추론 작업을 수행합니다.
기존 최첨단(SOTA) LLM 서빙 시스템은 각 유형의 요청에 대해 별도의 머신을 할당하여 각각 낮은 추론 지연 시간 또는 높은 처리량을 달성합니다. 하지만 이 방식은 요청 스케줄링과 관리를 단순화하는 반면 자원 활용률이 떨어지는 단점이 있습니다.
중국 과학원의 연구원 Wan Borui, Zhao Juntao, Jiang Chenyu, Guo Chuanxiong, Wu Chuan은 이러한 문제를 해결하기 위해 BROS라는 혁신적인 하이브리드 LLM 서빙 시스템을 제안했습니다. BROS는 RT 요청의 지연 시간 요구 사항을 충족하면서 BE 요청의 처리량을 유지하기 위해 RT/BE 요청을 통합하는 것을 목표로 합니다.
BROS는 하이브리드 RT/BE 요청 스케줄링 문제를 공식화하고 동적 우선순위 기반 알고리즘을 사용하여 이를 해결합니다. 또한, RT 요청이 BE 요청과 KV 메모리를 공유할 수 있도록 양방향 KV 캐시 관리 메커니즘을 설계하여 부족한 KV 메모리로 인한 스케줄링 제약을 제거하고 활용률을 개선합니다.
광범위한 실험 결과, BROS는 하이브리드 RT 및 BE 요청을 처리할 때 뛰어난 성능을 보여줍니다. 실시간 요청의 지연 시간을 최대 74.20%까지 단축하고 서비스 수준 목표(SLO) 달성률을 최대 36.38배까지 향상시키는 동시에 BE 요청의 처리량 저하는 무시할 수준입니다. 이는 vLLM 및 TGI와 같은 기존 SOTA 시스템에 비해 상당한 이점을 제공합니다.
결론적으로, BROS는 LLM 서빙 시스템의 효율성과 성능을 획기적으로 향상시키는 혁신적인 시스템입니다. 실시간 및 최선형 요청을 효율적으로 처리하여 다양한 애플리케이션에 적용 가능성을 높였으며, 향후 LLM 기반 서비스의 발전에 중요한 기여를 할 것으로 기대됩니다.
Reference
[arxiv] Efficient LLM Serving on Hybrid Real-time and Best-effort Requests
Published: (Updated: )
Author: Wan Borui, Zhao Juntao, Jiang Chenyu, Guo Chuanxiong, Wu Chuan
http://arxiv.org/abs/2504.09590v1