폴라 스파스티: 대규모 배치 LLM 추론의 획기적 속도 향상
본 연구는 대규모 언어 모델(LLM)의 추론 속도를 획기적으로 향상시키는 폴라 스파스티(Polar Sparsity) 기술을 제시합니다. 배치 크기와 시퀀스 길이 증가에 따른 MLP와 어텐션 레이어의 스파스티 중요도 변화를 분석하여, 하드웨어 효율적인 스파스티 인식 GPU 커널을 개발하고, OPT, LLaMA-2, 3 등의 모델에서 최대 2.2배의 속도 향상을 달성했습니다. 정확도 저하 없이 대규모 배치 처리를 가능하게 하여, 고처리량 LLM 배포 시스템에 실질적인 해결책을 제공합니다.

최근 급증하는 대규모 언어 모델(LLM)의 실제 배포에는 높은 처리량과 낮은 지연 시간이 필수적입니다. Susav Shrestha, Brad Settlemyer, Nikoli Dryden, Narasimha Reddy 등의 연구진은 이러한 요구를 충족하기 위해 폴라 스파스티(Polar Sparsity) 라는 혁신적인 기술을 발표했습니다.
기존의 맥락적 스파스티(contextual sparsity) 는 각 토큰이 모델 파라미터의 작은 하위 집합만 활성화하는 방식으로, 추론 속도 향상에 기여했습니다. 하지만, 큰 배치 크기에서는 활성화된 뉴런의 수가 급증하여 기존 방식의 효율성이 떨어지는 한계점을 보였습니다.
연구진은 배치 크기와 시퀀스 길이가 증가함에 따라 MLP(Multilayer Perceptron) 레이어와 어텐션 레이어의 스파스티 중요도가 역전되는 현상을 발견했습니다. 배치 처리 시 MLP 레이어는 연산 효율이 높아지지만 스파스티는 사라지는 반면, 어텐션 레이어는 비용이 증가하지만 헤드 스파스티는 안정적으로 유지된다는 점에 주목했습니다.
이러한 통찰을 바탕으로 연구진은 MLP와 어텐션 레이어에 대한 스파스티 인식 GPU 커널을 개발했습니다. 이를 통해 OPT, LLaMA-2, 3 등의 모델에서 다양한 배치 크기와 시퀀스 길이에 걸쳐 최대 2.2배의 속도 향상을 달성했습니다. 놀라운 점은 이러한 속도 향상이 정확도 저하 없이 이루어졌다는 것입니다.
본 연구는 맥락적 스파스티가 대규모 배치 크기에 효과적으로 확장될 수 있음을 최초로 입증한 사례입니다. 최소한의 변경으로 상당한 추론 가속화를 달성하여, 폴라 스파스티는 대규모 고처리량 LLM 배포 시스템에 실질적인 해결책을 제시합니다. 연구 코드는 Github에서 확인할 수 있습니다. 이 연구는 LLM의 실제 세계 적용을 한 단계 더 앞당길 획기적인 성과로 평가받고 있습니다. 🎉
Reference
[arxiv] Polar Sparsity: High Throughput Batched LLM Inferencing with Scalable Contextual Sparsity
Published: (Updated: )
Author: Susav Shrestha, Brad Settlemyer, Nikoli Dryden, Narasimha Reddy
http://arxiv.org/abs/2505.14884v1