SparAMX: AMX 기반 CPU에서 압축된 LLM 토큰 생성 가속화
Intel Labs 연구진이 개발한 SparAMX는 AMX와 비구조적 희소성을 활용하여 CPU 기반 LLM의 성능을 획기적으로 향상시켰습니다. 기존 PyTorch 대비 1.42배의 지연 시간 단축과 어텐션 계산 속도 향상을 달성했으며, 오픈소스로 공개되어 폭넓은 활용이 기대됩니다.

혁신적인 CPU 기반 LLM 가속화 기술, SparAMX 등장!
대규모 언어 모델(LLM)은 높은 연산량, 지연 시간 및 메모리 요구 사항으로 인해 주로 GPU나 TPU와 같은 전문화된 가속기에서 실행됩니다. 하지만 CPU는 더욱 널리 사용 가능하고 에너지 소비량이 적다는 장점이 있습니다. Intel Labs의 연구진(Ahmed F. AbouElhamayed 외) 은 최신 Intel CPU의 Advanced Matrix Extensions (AMX) 지원과 비구조적 희소성을 활용하여 CPU에서 LLM을 가속화하는 획기적인 기술, SparAMX를 개발했습니다.
LLM 추론의 병목 현상 해결: 메모리 제약적인 디코딩 단계
LLM 추론에서 가장 큰 병목 현상 중 하나는 바로 토큰을 하나씩 처리하는 메모리 제약적인 디코딩 단계입니다. 특히 추론 능력이 중요한 모델에서는 이 단계의 속도 향상이 매우 중요합니다. SparAMX는 바로 이 지점에 초점을 맞추었습니다.
압도적인 성능 향상: 기존 PyTorch 대비 1.42배 지연 시간 단축
SparAMX는 선형 계층에 기술을 적용하여 기존 PyTorch 구현 대비 1.42배의 종단 간 지연 시간 단축을 달성했습니다. 이는 단순한 성능 개선이 아닌, LLM의 실질적인 활용성을 크게 높이는 혁신적인 결과입니다. 더욱 놀라운 점은 어텐션 계산에 비구조적 희소성을 적용하여 기존 시스템 대비 1.14배의 속도 향상을 달성하면서 정확도 저하 없이 성능을 향상시켰다는 것입니다. 이는 어텐션 계산의 효율성을 획기적으로 개선한 최초의 사례입니다.
오픈소스 공개: 모든 PyTorch 모델에 적용 가능
연구진은 SparAMX를 구성하는 커스텀 sparse 커널을 오픈소스(https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning/tree/main/SparAMX)로 공개하여, 개발자들이 자유롭게 활용할 수 있도록 했습니다. 이를 통해 어떤 PyTorch 모델이든 자동으로 선형 계층을 커스텀 sparse 구현으로 대체하여 성능을 향상시킬 수 있습니다.
결론: 더욱 폭넓은 AI 접근성과 효율성의 시대를 열다
SparAMX는 CPU 기반의 LLM 가속화라는 새로운 가능성을 제시하며, 더욱 폭넓은 AI 접근성과 에너지 효율성을 향한 중요한 발걸음을 내디뎠습니다. 이 기술의 발전은 앞으로 더욱 다양한 분야에서 LLM의 활용을 촉진하고, AI 기술의 민주화에 크게 기여할 것으로 기대됩니다.
Reference
[arxiv] SparAMX: Accelerating Compressed LLMs Token Generation on AMX-powered CPUs
Published: (Updated: )
Author: Ahmed F. AbouElhamayed, Jordan Dotzel, Yash Akhauri, Chi-Chih Chang, Sameh Gobriel, J. Pablo Muñoz, Vui Seng Chua, Nilesh Jain, Mohamed S. Abdelfattah
http://arxiv.org/abs/2502.12444v1