GPU 공유로 거대 언어 모델 서비스 비용 혁신: Prism 시스템의 등장

본 기사는 GPU 공유를 통해 다수의 거대 언어 모델(LLM)을 효율적으로 서비스하는 새로운 시스템인 Prism에 대해 소개합니다. Prism은 기존 시스템 대비 2배 이상의 비용 절감 및 3.3배 이상의 서비스 수준 목표(SLO) 달성을 통해 LLM 서비스의 경제성과 효율성을 크게 향상시키는 혁신적인 시스템입니다.

거대 언어 모델(LLM) 서비스는 특히 여러 모델을 호스팅하는 제공업체에게는 막대한 비용을 초래합니다. 비용 절감은 필수적인 과제이며, 여러 LLM을 서비스하는 작업(멀티-LLM 서비스)의 고유한 패턴은 새로운 기회와 과제를 제시합니다. 모델의 인기 편차와 긴 유휴 시간은 GPU 공유를 통한 활용률 개선의 기회를 제공하지만, 기존의 GPU 공유 시스템은 런타임 시 자원 할당 및 공유 정책을 조정하는 기능이 부족하여 변동적인 작업 부하에서 지연 시간 서비스 수준 목표(SLO)를 충족하는 데 비효율적입니다.

Shan Yu 등 13명의 연구원이 발표한 논문 "Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving"은 이러한 문제에 대한 해결책을 제시합니다. Prism은 GPU 공유의 잠재력을 최대한 활용하여 비용 효율성과 SLO 달성을 동시에 구현하는 멀티-LLM 서비스 시스템입니다.

Prism의 핵심은 기존 시스템의 주요 한계였던 '모델 간 메모리 조정' 문제를 해결하는 데 있습니다. 동적인 작업 부하에서 모델 간 GPU 메모리를 유연하게 공유하려면 이 기능이 필수적입니다. Prism은 두 가지 핵심 설계를 통해 이를 달성합니다.

주문형 메모리 할당: 물리적 메모리 페이지를 가상 메모리 페이지에 동적으로 매핑하여 GPU를 공간적 및 시간적으로 공유하는 모델 간에 유연한 메모리 재분배를 가능하게 합니다.
2단계 스케줄링 정책: 모델의 런타임 요구 사항에 따라 공유 전략을 동적으로 조정하여 메모리 효율성을 향상시킵니다.

실제 추적 데이터를 사용한 평가 결과, Prism은 최첨단 시스템에 비해 2배 이상의 비용 절감과 3.3배 이상의 SLO 달성을 보여주었습니다. 이는 LLM 서비스의 경제성과 효율성을 크게 향상시키는 획기적인 성과입니다. Prism은 향후 멀티-LLM 서비스 분야의 발전에 중요한 이정표가 될 것으로 기대됩니다. 하지만, 실제 운영 환경에서의 장기적인 성능과 안정성에 대한 추가적인 연구가 필요할 것으로 보입니다. 특히, 복잡한 모델 간의 상호 작용 및 예측 불가능한 작업 부하에 대한 대응력을 지속적으로 검증해야 할 것입니다. 더불어, Prism 시스템의 확장성 및 다양한 LLM 아키텍처와의 호환성에 대한 추가적인 연구가 필요합니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving

Published: (Updated: )

Author: Shan Yu, Jiarong Xing, Yifan Qiao, Mingyuan Ma, Yangmin Li, Yang Wang, Shuo Yang, Zhiqiang Xie, Shiyi Cao, Ke Bao, Ion Stoica, Harry Xu, Ying Sheng

http://arxiv.org/abs/2505.04021v1