혁신적인 AI 추론 최적화: CPU-GPU 결합 아키텍처의 새로운 지평
본 기사는 대규모 언어 모델(LLM) 추론 작업 부하의 CPU-GPU 결합 아키텍처 최적화에 대한 최신 연구 결과를 소개합니다. GH200 시스템의 우수한 성능과 함께 CPU 바운드 현상 및 커널 융합의 중요성을 강조하며, 향후 AI 추론 성능 향상을 위한 연구 방향을 제시합니다.

최근 대규모 언어 모델(LLM) 기반 추론 작업 부하는 데이터센터 비용과 자원 활용의 상당 부분을 차지하고 있습니다. 이에 따라 진화하는 CPU-GPU 결합 아키텍처에서의 추론 작업 부하 특성을 이해하는 것이 최적화에 매우 중요해졌습니다.
프라부 벨라이사미를 비롯한 연구진 6명은 최근 발표한 논문, "Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures" 에서 느슨하게 결합된 (PCIe A100/H100) 시스템과 밀접하게 결합된 (GH200) 시스템에서의 LLM 추론 동작에 대한 심층 분석 결과를 제시했습니다. SKIP이라는 새로운 프로파일러를 사용하여 세분화된 연산자-커널 추적 분석과 TKLQT(Total Kernel Launch and Queuing Time)와 같은 지표를 통해 성능 역학을 분석했습니다.
연구 결과, GH200(밀접 결합) 시스템은 큰 배치 크기에서 느슨하게 결합된 시스템보다 1.9배에서 2.7배 더 빠른 Llama 3.2-1B의 사전 채우기 지연 시간을 달성했습니다. 하지만 놀랍게도, GH200 시스템은 느슨한 결합 시스템보다 최대 4배 더 큰 배치 크기까지 CPU 바운드 현상을 나타냈습니다. 이러한 확장된 CPU 바운드 영역에서 Grace CPU의 성능 특성이 GH200에서 저 배치 크기에서의 높은 추론 지연 시간에 크게 기여하는 요인으로 밝혀졌습니다.
흥미롭게도, 연구진은 TKLQT 지표가 이러한 CPU/GPU 바운드 전환점을 정확하게 식별함을 보여주었습니다. 더 나아가, 커널 융합이 커널 실행 오버헤드를 줄임으로써 GH200의 저 배치 크기 지연 시간 병목 현상을 완화할 수 있는 상당한 잠재력을 가지고 있음을 증명했습니다.
이 연구는 CPU-GPU 결합 전략 최적화에 대한 중요한 통찰력을 제공하는 커널 수준의 상세한 특성 분석을 제공합니다. 연구진은 이 연구를 시작으로, 다양한 정도의 CPU-GPU 이기종 아키텍처를 요구하는 다른 주요 AI/DL 작업 부하에 대한 연구를 계속할 계획이라고 밝혔습니다. 이는 AI 추론 성능 향상을 위한 끊임없는 혁신의 시작을 알리는 중요한 발걸음입니다.
핵심: LLM 추론 최적화를 위한 CPU-GPU 아키텍처 분석, GH200의 성능 및 한계, 커널 융합의 효과, 향후 연구 방향 제시
Reference
[arxiv] Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures
Published: (Updated: )
Author: Prabhu Vellaisamy, Thomas Labonte, Sourav Chakraborty, Matt Turner, Samantika Sury, John Paul Shen
http://arxiv.org/abs/2504.11750v1