생성 AI 추론의 혁신: 이종 가속기 시스템에서의 적응형 오케스트레이션


본 논문은 대규모 생성 AI 추론 시스템을 위한 적응형 오케스트레이션 기법을 제안합니다. GPU와 특수 가속기의 이종 환경에서 실시간 비용 및 용량 신호를 기반으로 작업을 동적으로 할당하여 비용, 성능, 복원력을 균형 있게 유지합니다. Stable Diffusion 모델을 이용한 실험 결과, 제안된 기법은 지연 시간 목표를 충족하고, 용량 부족 시 자동으로 트래픽을 리다이렉션하며, 저렴한 가속기를 효율적으로 활용하는 것으로 나타났습니다.

related iamge

최근 생성 AI의 급증으로 인해 GPU와 특수 가속기를 유연하게 활용하면서 운영 비용을 절감할 수 있는 확장 가능한 추론 시스템에 대한 필요성이 커지고 있습니다. Yahav Biran과 Imry Kissos는 이러한 문제에 대한 해결책으로, 실시간 비용 및 용량 신호에 따라 이종 가속기 간에 요청을 적응적으로 할당하는 하드웨어 독립적인 제어 루프를 제안했습니다.

그들의 논문, "Adaptive Orchestration for Large-Scale Inference on Heterogeneous Accelerator Systems Balancing Cost, Performance, and Resilience" 에서 제시된 이 접근 방식은 비용 최적화 모드와 용량 최적화 모드 간의 동적 전환을 통해 저지연 및 고처리량을 유지하며, 변동하는 가용성 하에서 고가의 컴퓨팅 리소스를 가장 효율적으로 사용할 수 있도록 합니다.

Stable Diffusion 모델을 사용한 평가 결과, 이 프레임워크는 지연 시간 목표를 일관되게 충족하고, 용량 부족 시 자동으로 트래픽을 리다이렉션하며, 가능한 경우 저렴한 가속기를 활용하는 것으로 나타났습니다. 이러한 결과는 소프트웨어 및 하드웨어 스택 전체에 걸친 피드백 기반 배포 전략을 통해 기업이 제한된 가속기 용량에 직면하더라도 생성 AI 워크로드를 효율적으로 확장하고 복원력을 유지할 수 있음을 보여줍니다.

본 연구는 단순히 성능 향상에만 집중하는 것이 아니라, 비용 효율성과 시스템의 안정성까지 고려하여 실용적인 측면까지 아우르는 점이 돋보입니다. 이는 생성 AI의 상용화 및 확장에 있어 중요한 진전이며, 향후 더욱 발전된 시스템 구축에 대한 기대감을 높입니다. 특히, 변동하는 자원 환경에 대한 적응력은 실제 서비스 환경에서의 안정적인 운영을 보장하는데 크게 기여할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Adaptive Orchestration for Large-Scale Inference on Heterogeneous Accelerator Systems Balancing Cost, Performance, and Resilience

Published:  (Updated: )

Author: Yahav Biran, Imry Kissos

http://arxiv.org/abs/2503.20074v2