HERMES: 차세대 AI 워크로드를 위한 이종 멀티스테이지 LLM 추론 파이프라인 최적화


본 기사는 HERMES, 즉 이종 멀티스테이지 LLM 추론 실행 시뮬레이터를 소개합니다. HERMES는 대규모 언어 모델의 복잡한 추론 파이프라인을 효과적으로 모델링하고 최적화하여 차세대 AI 워크로드의 성능 향상에 기여할 것으로 기대됩니다.

related iamge

최근 대규모 언어 모델(LLM)의 급속한 발전으로 인해 점점 더 정교한 추론 파이프라인과 하드웨어 플랫폼에 대한 필요성이 증가하고 있습니다. 기존의 단순한 사전 채우기-디코딩 방식을 넘어, 현대의 LLM 서비스는 검색 증강 생성(RAG), 키-값(KV) 캐시 검색, 동적 모델 라우팅, 다단계 추론 등 다양한 단계를 포함하는 멀티스테이지 프로세스를 도입하고 있습니다. 이러한 단계들은 GPU, ASIC, CPU 및 메모리 중심 아키텍처를 통합하는 분산 시스템을 필요로 할 만큼 다양한 컴퓨팅 요구사항을 보입니다.

하지만 기존의 시뮬레이터들은 이러한 이종의 멀티엔진 워크플로우를 모델링하는 충분한 정확도를 제공하지 못하여, 아키텍처 결정에 대한 정보를 제한적으로 제공해왔습니다. 이러한 한계를 해결하기 위해, Abhimanyu Rajeshkumar Bambhaniya 등 연구진은 HERMES(Heterogeneous Multi-stage LLM inference Execution Simulator) 라는 새로운 시뮬레이터를 개발했습니다.

HERMES는 RAG, KV 검색, 추론, 사전 채우기 및 디코딩 등 다양한 요청 단계를 복잡한 하드웨어 계층구조에서 모델링합니다. 기존 프레임워크와 달리, HERMES는 동시에 여러 모델을 실행하는 이종 클라이언트를 지원하며, 고급 배치 전략과 다단계 메모리 계층 구조를 통합합니다. 실제 하드웨어 추적과 분석 모델링을 통합하여, 메모리 대역폭 경합, 클러스터 간 통신 지연 시간 및 하이브리드 CPU-액셀러레이터 배포에서의 배치 효율성과 같은 중요한 트레이드오프를 포착합니다.

사례 연구를 통해, 연구진은 추론 단계가 종단 간 지연 시간에 미치는 영향, 하이브리드 파이프라인에 대한 최적의 배치 전략, 원격 KV 캐시 검색의 아키텍처적 의미를 탐구했습니다. HERMES는 시스템 설계자가 진화하는 LLM 추론 환경을 효과적으로 다룰 수 있도록 지원하며, 차세대 AI 워크로드를 위한 하드웨어-소프트웨어 공동 설계 최적화에 대한 실행 가능한 통찰력을 제공합니다. 이는 LLM 기반 서비스의 성능 향상 및 효율적인 자원 관리에 큰 기여를 할 것으로 기대됩니다. 앞으로 HERMES의 발전과 실제 적용 사례를 지속적으로 주목할 필요가 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Understanding and Optimizing Multi-Stage AI Inference Pipelines

Published:  (Updated: )

Author: Abhimanyu Rajeshkumar Bambhaniya, Hanjiang Wu, Suvinay Subramanian, Sudarshan Srinivasan, Souvik Kundu, Amir Yazdanbakhsh, Midhilesh Elavazhagan, Madhu Kumar, Tushar Krishna

http://arxiv.org/abs/2504.09775v2