Niyama: LLM 추론 서비스의 사일로 붕괴
Niyama는 다양한 지연 시간 요구 사항을 가진 LLM 애플리케이션을 효율적으로 처리하는 새로운 QoS 기반 추론 서비스 시스템입니다. 동적 청크 처리, 하이브리드 우선 순위 정책, 선택적 요청 배정 등의 기능을 통해 서비스 용량을 32% 증가시키고, 극한 부하 조건에서 SLO 위반을 10배 감소시키는 놀라운 성능 향상을 달성했습니다.

LLM 추론 서비스의 혁신: Niyama의 등장
최근 대규모 언어 모델(LLM)의 급속한 발전은 다양한 분야에서 혁신적인 애플리케이션을 가능하게 했습니다. 하지만, 각 애플리케이션의 지연 시간 요구사항이 제각각인 상황에서 기존의 LLM 서빙 프레임워크는 상호작용형과 배치 작업처럼 서로 다른 작업 부하를 구분하는 조악한 방식을 사용해왔습니다. 이는 자원 활용의 비효율성, 과도한 프로비저닝, 그리고 트래픽 급증 시 부실한 부하 관리로 이어지는 문제점을 야기했습니다.
Kanishk Goel 등 연구진이 개발한 Niyama는 이러한 문제를 해결하기 위해 등장한 혁신적인 QoS(Quality-of-Service) 기반 추론 서비스 시스템입니다. Niyama는 공유 인프라에서 다양한 작업 부하를 효율적으로 공동 스케줄링하는 것을 목표로 합니다.
Niyama의 핵심 기능:
- 미세한 QoS 분류: 애플리케이션이 정확한 지연 시간 요구 사항을 지정할 수 있도록 지원합니다. 실시간 시스템 상태에 따라 동적으로 스케줄링 결정을 조정하여 최적의 성능을 제공합니다.
- 동적 청크 처리: LLM 추론의 예측 가능한 실행 특성을 활용하여 전체 처리량을 향상시키는 동시에 엄격한 QoS 보장을 유지합니다. 이는 마치 교향악단의 지휘자가 각 악기 파트의 연주 시간을 정교하게 조절하여 전체적인 조화를 이루는 것과 같습니다.
- 하이브리드 우선 순위 정책: 공정성과 효율성을 균형 있게 고려하여 모든 애플리케이션이 공평하게 자원을 할당받도록 합니다.
- 선택적 요청 배정: 과부하 조건에서 우아하게 서비스 저하를 관리하여 시스템의 안정성을 유지합니다. 이는 마치 비행기의 자동 조종 시스템이 갑작스러운 기상 악화에도 안전하게 착륙을 유도하는 것과 같습니다.
놀라운 성능 개선:
연구 결과, Niyama는 기존의 독립적인 배포 방식과 비교하여 서비스 용량을 무려 32%나 증가시켰습니다. 뿐만 아니라, 극한 부하 조건에서도 SLO(Service Level Objective) 위반을 10배나 감소시키는 놀라운 성능 향상을 보였습니다. 이는 Niyama가 LLM 추론 서비스의 효율성과 안정성을 획기적으로 개선했음을 의미합니다.
Niyama는 LLM 기반 애플리케이션의 미래를 밝히는 등불과 같습니다. 이 시스템의 발전은 더욱 다양하고 복잡한 LLM 애플리케이션의 개발과 배포를 가능하게 하며, AI 기술의 실생활 적용을 더욱 가속화할 것으로 기대됩니다.
Reference
[arxiv] Niyama : Breaking the Silos of LLM Inference Serving
Published: (Updated: )
Author: Kanishk Goel, Jayashree Mohan, Nipun Kwatra, Ravi Shreyas Anupindi, Ramachandran Ramjee
http://arxiv.org/abs/2503.22562v1