혁신적인 RAG 서빙 프레임워크, Patchwork 등장!
Patchwork는 RAG 시스템의 효율적 배포를 위한 혁신적인 프레임워크로, 유연한 사양 인터페이스, 분산 추론 시스템, 온라인 스케줄링 메커니즘을 통해 처리량을 48% 이상 향상시키고 SLO 위반을 24% 감소시키는 놀라운 성과를 달성했습니다.

대규모 언어 모델의 신뢰성을 높이는 혁신적인 기술: Patchwork
최근 외부 지식 소스와의 통합을 통해 대규모 언어 모델(LLM)의 신뢰성을 향상시키는 새로운 패러다임으로 Retrieval Augmented Generation (RAG) 이 부상하고 있습니다. 하지만 RAG 시스템은 LLM, 데이터베이스, 특수 처리 구성 요소 등 이질적인 계산 파이프라인으로 구성되어 있어 효율적인 배포에 상당한 기술적 어려움이 따릅니다.
이러한 문제를 해결하기 위해 Bodun Hu, Luis Pabon, Saurabh Agarwal, Aditya Akella 등이 개발한 Patchwork이 등장했습니다. Patchwork는 종합적인 엔드투엔드 RAG 서빙 프레임워크로, 세 가지 핵심적인 혁신을 제공합니다.
첫째, 유연한 사양 인터페이스를 통해 사용자는 맞춤형 RAG 파이프라인을 구현할 수 있습니다. 이는 다양한 요구사항에 유연하게 대응할 수 있다는 것을 의미합니다.
둘째, 개별 RAG 구성 요소의 고유한 확장성 특징에 맞춰 최적화된 분산 추론 시스템으로 이러한 파이프라인을 배포합니다. 이를 통해 시스템의 처리 능력과 안정성을 크게 높일 수 있습니다.
셋째, Patchwork은 요청 부하와 실행 진행 상황을 지속적으로 모니터링하는 온라인 스케줄링 메커니즘을 통합하여 전략적인 요청 우선 순위 지정과 리소스 자동 확장을 통해 SLO(Service Level Objective) 위반을 최소화합니다. 즉, 시스템의 성능을 실시간으로 최적화하여 사용자에게 최상의 서비스를 제공합니다.
놀라운 성과: 네 가지의 서로 다른 RAG 구현을 대상으로 한 실험 평가에서 Patchwork는 기존 상용 대안보다 괄목할 만한 성능 향상을 달성했습니다. 처리량은 48% 이상 증가했으며, 동시에 SLO 위반은 약 24% 감소했습니다. 이는 Patchwork의 효율성과 안정성을 명확하게 보여주는 결과입니다.
Patchwork는 RAG 시스템의 효율적인 배포와 성능 향상에 대한 새로운 가능성을 제시합니다. 이 기술은 향후 LLM 기반 애플리케이션의 발전에 크게 기여할 것으로 기대됩니다.
Reference
[arxiv] Patchwork: A Unified Framework for RAG Serving
Published: (Updated: )
Author: Bodun Hu, Luis Pabon, Saurabh Agarwal, Aditya Akella
http://arxiv.org/abs/2505.07833v1