HERMES: 차세대 AI 추론 파이프라인 최적화의 핵심
HERMES 시뮬레이터는 초거대 언어 모델(LLM)의 복잡한 추론 파이프라인을 효과적으로 모델링하고 최적화하는 데 기여하며, 다양한 하드웨어 아키텍처와 여러 단계의 추론 과정을 고려하여 시스템 설계자들에게 실질적인 통찰력을 제공합니다.

초거대 언어 모델 시대, 복잡해지는 추론 파이프라인
최근 급속도로 발전하는 초거대 언어 모델(LLM)은 점점 더 정교한 추론 파이프라인과 하드웨어 플랫폼을 필요로 합니다. 단순한 prefill-decode 방식을 넘어, 검색 증강 생성(RAG), 키-값(KV) 캐시 검색, 동적 모델 라우팅, 다단계 추론 등 다양한 단계가 포함된 다단계 프로세스가 등장했습니다. 이러한 단계들은 GPU, ASIC, CPU, 메모리 중심 아키텍처를 통합하는 분산 시스템을 필요로 하지만, 기존 시뮬레이터는 이러한 이기종 멀티 엔진 워크플로우를 충분히 모델링하지 못하여 아키텍처 결정에 대한 정보를 제한적으로 제공했습니다.
HERMES: 이기종 멀티 스테이지 LLM 추론 실행 시뮬레이터
이러한 문제를 해결하기 위해 Abhimanyu Rajeshkumar Bambhaniya를 비롯한 9명의 연구진은 HERMES (Heterogeneous Multi-stage LLM inference Execution Simulator) 를 개발했습니다. HERMES는 RAG, KV 검색, 추론, 프리필, 디코딩 등 복잡한 하드웨어 계층 구조에서 다양한 요청 단계를 모델링합니다. 기존 프레임워크와 달리, HERMES는 여러 모델을 동시에 실행하는 이기종 클라이언트를 지원하며, 고급 배치 전략과 다단계 메모리 계층 구조를 통합합니다. 실제 하드웨어 추적과 분석 모델링을 통합하여 메모리 대역폭 경합, 클러스터 간 통신 지연 시간, 하이브리드 CPU-가속기 배포 환경에서의 배치 효율성과 같은 중요한 절충점을 포착합니다.
HERMES가 제시하는 통찰력: 최적화를 위한 실질적인 방향 제시
연구진은 HERMES를 통해 다양한 사례 연구를 수행하여 추론 단계가 종단 간 지연 시간에 미치는 영향, 하이브리드 파이프라인에 대한 최적의 배치 전략, 원격 KV 캐시 검색의 아키텍처적 의미를 탐구했습니다. HERMES는 시스템 설계자가 진화하는 LLM 추론 환경을 탐색하고 차세대 AI 워크로드를 위한 하드웨어-소프트웨어 공동 설계를 최적화하는 데 필요한 실질적인 통찰력을 제공합니다. 이는 단순한 시뮬레이션을 넘어, 실제 시스템 구축에 직접적인 영향을 미치는 중요한 발전입니다. HERMES의 등장으로 LLM 기반 서비스의 성능 향상과 효율적인 자원 관리에 대한 기대감이 더욱 높아지고 있습니다.
:sparkles: HERMES를 통해 LLM 기반 서비스의 성능과 효율성이 한 단계 더 발전할 것으로 기대됩니다!
Reference
[arxiv] Understanding and Optimizing Multi-Stage AI Inference Pipelines
Published: (Updated: )
Author: Abhimanyu Rajeshkumar Bambhaniya, Hanjiang Wu, Suvinay Subramanian, Sudarshan Srinivasan, Souvik Kundu, Amir Yazdanbakhsh, Midhilesh Elavazhagan, Madhu Kumar, Tushar Krishna
http://arxiv.org/abs/2504.09775v3