Tempo: 혼합 SLO 요구사항을 가진 애플리케이션 인식형 LLM 서빙
본 기사는 다양한 SLO 요구사항을 가진 애플리케이션에서 LLM의 성능을 극대화하는 Tempo 스케줄러에 대한 최신 연구 결과를 소개합니다. Tempo는 서비스 이득 극대화를 통해 최첨단 시스템보다 최대 8.3배 향상된 성능을 보여주는 혁신적인 기술입니다.

챗봇부터 지능형 에이전트까지, LLM의 시대가 열렸습니다! 하지만…
대규모 언어 모델(LLM)이 챗봇, 클라우드 AIOps, 지능형 에이전트 등 다양한 애플리케이션에 통합되면서, 응답 속도에 대한 서비스 수준 목표(SLO)의 스펙트럼이 급격히 넓어졌습니다. 스트리밍 채팅에서의 토큰당 지연 시간에 초점을 맞춘 지연 시간에 민감한 요청부터, 도구 호출을 위해 빠른 전체 응답이 필요한 처리량 중심의 요청, 그리고 자기 반성이나 에이전트 기반 추론에서 발생하는 동적 종속성을 가진 집합적 요청까지, 그 종류는 다양합니다. 특히 응답 길이 및 런타임 종속성과 같은 예측 불가능한 요청 정보는 기존 스케줄러의 한계를 드러냅니다.
Tempo: 서비스 이득을 극대화하는 혁신적인 스케줄러
Zhang Wei 등 연구진이 발표한 논문 "Tempo: Application-aware LLM Serving with Mixed SLO Requirements"는 이러한 문제에 대한 해결책을 제시합니다. 연구진은 요청 완료를 통해 제공되는 유용한 서비스를 '서비스 이득'으로 정의하고, SLO보다 훨씬 빠르게 요청을 완료해도 추가적인 서비스 이득은 제한적이라는 점을 발견했습니다. 이러한 통찰력을 바탕으로, 연구진은 다양한 LLM 워크로드에서 서비스 이득을 극대화하도록 설계된 최초의 체계적인 SLO 인식 스케줄러인 Tempo를 소개합니다.
Tempo는 각 SLO를 충족하는 데 필요한 서빙 대역폭만 할당하여 다른 최선을 다하는 워크로드에 대한 잔여 용량을 극대화합니다. 요청 정보를 가정하거나 전혀 사용하지 않는 대신, Tempo는 양자 기반 응답 상한과 종속성 그래프 매칭을 사용하여 보수적인 초기 추정을 하고, 서비스 이득 밀도에 따라 요청 우선순위를 지정하며, 생성 과정에서 온라인으로 결정을 개선하는 하이브리드 스케줄링 전략을 채택합니다.
놀라운 성능 향상: 최대 8.3배의 서비스 이득 증가!
챗봇, 추론, 에이전트 파이프라인을 포함한 다양한 워크로드에 대한 평가 결과, Tempo는 최첨단 설계에 비해 종단 간 서비스 이득을 최대 8.3배 향상시키고, SLO 처리량을 최대 10.3배 향상시키는 것으로 나타났습니다. 이는 Tempo가 LLM 애플리케이션의 성능과 효율성을 획기적으로 개선할 수 있는 잠재력을 가짐을 보여줍니다.
Tempo는 단순한 스케줄러를 넘어, LLM의 실제 응용 환경에 맞춘 지능형 관리 시스템으로 발전할 가능성을 보여주는 흥미로운 연구입니다. 앞으로 LLM 기반 서비스의 성능 향상과 효율적인 자원 관리에 중요한 역할을 할 것으로 기대됩니다. 특히, 다양한 SLO를 동시에 만족시켜야 하는 복잡한 환경에서 Tempo의 효용성은 더욱 크게 나타날 것으로 예상됩니다.
Reference
[arxiv] Tempo: Application-aware LLM Serving with Mixed SLO Requirements
Published: (Updated: )
Author: Wei Zhang, Zhiyu Wu, Yi Mu, Banruo Liu, Myungjin Lee, Fan Lai
http://arxiv.org/abs/2504.20068v1