혁신적인 LLM 서빙 시스템 ELIS: 응답 속도의 혁명
최승범, 구정회, 전은주, 양명유, 장민성 연구팀은 응답 길이 예측 모델과 ISRTF 스케줄링 전략을 활용한 혁신적인 LLM 서빙 시스템 ELIS를 개발하여 평균 작업 완료 시간을 최대 19.6% 단축하는 성과를 거두었습니다.

최승범, 구정회, 전은주, 양명유, 장민성 연구팀이 ELIS(Efficient LLM Iterative Scheduling System) 라는 획기적인 대규모 언어 모델(LLM) 서빙 시스템을 개발했습니다. 기존 시스템의 단점을 극복하고 응답 속도를 비약적으로 향상시키는 ELIS는 어떻게 작동할까요?
기존의 LLM 서빙 시스템은 주로 선입선출(FIFO) 방식을 사용하여, 작업이 순차적으로 처리됩니다. 이는 '헤드-오브-라인 블로킹' 문제를 야기하여 전체적인 처리 시간을 늘리는 원인이 됩니다. ELIS는 이 문제를 해결하기 위해 응답 길이 예측 모델을 도입했습니다. 연구팀은 최첨단 인코더 기반 모델인 BGE 모델을 활용, LLM의 응답 길이를 예측하는 모델을 학습시켰습니다. 자동 회귀적 특성을 가진 LLM의 추론 지연 시간 예측이 어렵다는 점을 감안하면 획기적인 시도입니다.
예측된 응답 길이를 바탕으로 ELIS는 Iterative Shortest Remaining Time First (ISRTF) 스케줄링 전략을 적용합니다. 이는 기존 LLM 반복 배치 처리 방식에 최적화된 '가장 짧은 남은 시간 우선' 전략의 변형으로, 실제 환경에서의 효율성을 극대화합니다.
단순한 이론적 연구에 그치지 않고, 연구팀은 실제 산업 환경을 반영한 시뮬레이션을 진행했습니다. 실제 사용자 LLM 서빙 추적 기록을 바탕으로 요청 스트림을 시뮬레이션하여 ELIS의 성능을 검증했으며, Kubernetes 기반 클라우드 네이티브 스케줄러 시스템으로 구현하여 실제 운영 환경에서의 성능을 평가했습니다. 그 결과, ISRTF 스케줄링 전략이 평균 작업 완료 시간을 최대 19.6% 단축하는 놀라운 성과를 달성했습니다.
ELIS는 단순한 기술적 개선을 넘어, LLM의 실제 활용성을 획기적으로 높이는 솔루션입니다. 빠른 응답 속도는 사용자 경험 향상은 물론, 다양한 LLM 기반 서비스의 확장성을 확보하는 데 크게 기여할 것으로 기대됩니다. 이 연구는 LLM 분야의 발전에 중요한 이정표를 세웠다고 평가할 수 있습니다.👏
Reference
[arxiv] ELIS: Efficient LLM Iterative Scheduling System with Response Length Predictor
Published: (Updated: )
Author: Seungbeom Choi, Jeonghoe Goo, Eunjoo Jeon, Mingyu Yang, Minsung Jang
http://arxiv.org/abs/2505.09142v1