프즘(Prism): GPU 공유로 다중 LLM 서빙 비용 혁신적으로 절감하다!
본 기사는 GPU 공유를 통해 다중 LLM 서빙의 비용 효율성을 극대화하는 프즘(Prism) 시스템에 대한 최신 연구 결과를 소개합니다. 프즘은 모델 간 메모리 조정 기능을 통해 기존 시스템의 한계를 극복하고, 실시간 자원 할당 및 2단계 스케줄링 정책으로 비용 절감 및 SLO 달성을 동시에 실현합니다. 실제 추적 데이터 기반 평가 결과, 프즘은 기존 시스템 대비 2배 이상의 비용 절감과 3.3배 이상의 SLO 향상을 달성했습니다.

프즘(Prism): GPU 공유로 다중 LLM 서빙의 새로운 지평을 열다!
대규모 언어 모델(LLM) 서빙은 특히 여러 모델을 호스팅하는 제공업체에게는 매우 비용이 많이 드는 작업입니다. 비용 절감은 필수적이며, 다중 LLM 서빙의 고유한 작업 패턴은 새로운 기회와 과제를 동시에 제시합니다. 모델의 긴 꼬리 형태의 인기도와 긴 유휴 시간은 GPU 공유를 통한 활용도 개선의 기회를 제공하지만, 기존 GPU 공유 시스템은 실시간으로 자원 할당 및 공유 정책을 조정하는 기능이 부족하여 변동이 심한 작업량 하에서 지연 시간 서비스 수준 목표(SLO)를 충족하는 데 어려움을 겪습니다.
Shan Yu 등 13명의 연구진이 발표한 논문 "Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving"은 이러한 문제에 대한 혁신적인 해결책을 제시합니다. 프즘(Prism) 은 GPU 공유의 잠재력을 최대한 활용하여 비용 효율성과 SLO 달성을 동시에 실현하는 다중 LLM 서빙 시스템입니다.
프즘의 핵심은 기존 시스템의 주요 한계점인 모델 간의 메모리 조정 기능 부족을 해결하는 데 있습니다. 프즘은 두 가지 핵심 설계를 통해 이를 달성합니다.
- 주문형 메모리 할당: 물리적 메모리 페이지를 가상 메모리 페이지에 동적으로 매핑하여 GPU를 공간 및 시간 공유하는 모델 간에 유연한 메모리 재분배를 가능하게 합니다.
- 2단계 스케줄링 정책: 모델의 런타임 요구 사항에 따라 공유 전략을 동적으로 조정하여 메모리 효율을 향상시킵니다.
실제 추적 데이터를 기반으로 한 평가 결과, 프즘은 최첨단 시스템에 비해 2배 이상의 비용 절감과 3.3배 이상의 SLO 달성을 보였습니다. 이는 다중 LLM 서빙 분야의 획기적인 발전이며, 앞으로 LLM 서비스의 비용 효율성을 크게 향상시킬 것으로 기대됩니다.
프즘은 단순한 기술적 발전을 넘어, LLM 접근성 향상 및 다양한 분야에서의 LLM 활용 확대에 크게 기여할 것으로 예상됩니다. 더 나아가, 이 연구는 지속적으로 증가하는 LLM 서빙 비용 문제에 대한 효과적인 해결책을 제시하며, 미래의 AI 기술 발전에 중요한 전기를 마련할 것으로 보입니다.
프즘의 등장은 GPU 자원의 효율적인 관리와 LLM 서비스의 경제성을 동시에 확보하려는 노력의 결실이며, AI 기술 발전에 있어 중요한 이정표가 될 것입니다. 앞으로 프즘을 기반으로 한 다양한 연구와 상용화가 이어질 것으로 기대하며, 지속적인 관심과 연구가 필요합니다.
Reference
[arxiv] Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving
Published: (Updated: )
Author: Shan Yu, Jiarong Xing, Yifan Qiao, Mingyuan Ma, Yangmin Li, Yang Wang, Shuo Yang, Zhiqiang Xie, Shiyi Cao, Ke Bao, Ion Stoica, Harry Xu, Ying Sheng
http://arxiv.org/abs/2505.04021v2