异构集群에서의 고처리량 LLM 추론: 획기적인 성능 향상
Xiong Yi 등 연구진이 발표한 논문은 이종 클러스터 상에서 고처리량 LLM 추론을 위한 새로운 시스템을 제안합니다. 완전 탐색을 통한 배포 구성 최적화와 인스턴스별 처리 능력을 고려한 요청 스케줄링 메커니즘을 통해 최대 122.5%의 처리량 향상을 달성했습니다.

요즘 많은 기업들이 다양한 AI 가속기를 보유하고 있으며, 이들은 이종 클러스터를 형성합니다. 이러한 클러스터를 활용하여 고처리량 대규모 언어 모델(LLM) 추론 서비스를 효율적으로 제공하는 것은 비용 절감과 작업 처리 속도 향상에 크게 기여할 수 있습니다. 하지만 이종 클러스터에서의 LLM 추론은 두 가지 주요 과제를 안고 있습니다.
첫째, 서로 다른 배포 구성에 따라 성능이 크게 달라질 수 있다는 점입니다. 가능한 구성의 수가 매우 많으며, 특정 설정의 효과를 평가하는 것도 복잡합니다. 따라서 최적의 구성을 찾는 것은 쉬운 일이 아닙니다.
둘째, 이종 클러스터 내의 LLM 추론 인스턴스는 처리 용량이 다르기 때문에 추론 요청 처리 속도도 다릅니다. 이러한 용량을 평가하고 각 인스턴스의 잠재력을 최대한 활용하는 요청 스케줄링 알고리즘을 설계하는 것은 어려운 과제입니다.
이 논문에서는 이종 클러스터 상에서 고처리량 추론 서비스 시스템을 제안합니다. 먼저, 리소스 양과 예상 처리량을 모델링하고 완전 탐색 방식을 사용하여 배포 구성을 최적화합니다. 둘째, 다양한 인스턴스의 서로 다른 처리 능력을 완전히 고려하는 새로운 요청 스케줄링 메커니즘을 제안합니다. 광범위한 실험 결과, 제안된 스케줄러는 두 개의 이종 클러스터에서 각각 처리량을 122.5%와 33.6% 향상시키는 것으로 나타났습니다. 이는 Xiong Yi 등 연구진이 이룬 놀라운 성과입니다. 이들의 연구는 AI 추론 서비스의 효율성을 극대화하는 데 중요한 전환점을 제시하며, 향후 AI 기술 발전에 큰 영향을 미칠 것으로 기대됩니다. 특히, 완전 탐색 방식을 통한 최적화와 다양한 인스턴스의 처리 능력을 고려한 스케줄링 메커니즘은 주목할 만한 부분입니다. 이러한 기술은 다양한 산업 분야에서 LLM을 활용한 서비스의 확장성과 효율성을 높이는 데 기여할 것입니다.
결론적으로, 이 연구는 이종 클러스터 환경에서 LLM 추론의 성능을 획기적으로 향상시키는 방법을 제시하여, AI 서비스의 효율성과 경제성을 동시에 확보하는 중요한 발걸음을 내딛었습니다. 앞으로 이러한 연구 결과를 바탕으로 더욱 효율적이고 강력한 AI 시스템이 개발될 것으로 예상됩니다.👏
Reference
[arxiv] High-Throughput LLM inference on Heterogeneous Clusters
Published: (Updated: )
Author: Yi Xiong, Jinqi Huang, Wenjie Huang, Xuebing Yu, Entong Li, Zhixiong Ning, Jinhua Zhou, Li Zeng, Xin Chen
http://arxiv.org/abs/2504.15303v1