혁신적인 AI 추론 가속화 기술 등장: 유연한 희소성을 활용한 LLM 성능 향상
본 기사는 Akshat Ramachandran 등이 발표한 연구 논문을 바탕으로, 유연한 N:M 희소성을 활용하여 LLM 추론을 가속화하는 새로운 기술인 FLOW와 FlexCiM에 대해 소개합니다. FLOW는 최적의 희소성 패턴을 선택하여 정확도를 높이고, FlexCiM은 효율적인 하드웨어 구현을 통해 추론 속도와 에너지 효율을 개선합니다. 이 기술은 LLM의 성능 향상과 에너지 효율 증대에 크게 기여할 것으로 기대됩니다.

최근, 대규모 언어 모델(LLM)의 추론 속도를 높이고 에너지 효율을 개선하기 위한 연구가 활발하게 진행되고 있습니다. Akshat Ramachandran 등 6명의 연구원은 이러한 문제에 대한 획기적인 해결책을 제시했습니다. 그들의 연구 논문 "Accelerating LLM Inference with Flexible N:M Sparsity via A Fully Digital Compute-in-Memory Accelerator"는 기존의 고정된 희소성 패턴 대신 유연한 N:M 희소성을 지원하는 새로운 방법을 제시하며 주목받고 있습니다.
기존의 LLM 가지치기(pruning) 기법은 고정된 N:M 구조적 희소성을 사용하여 모델의 크기를 줄였습니다. 하지만 이는 모델의 표현력을 제한하여 최적의 성능을 발휘하지 못하는 단점이 있었습니다. 반면, 다양한 N:M 패턴을 지원하는 것은 하드웨어에 상당한 오버헤드를 발생시켰습니다.
연구팀은 이러한 문제를 해결하기 위해 FLOW(Flexible Layer-wise Outlier-Density-Aware N:M sparsity) 알고리즘을 개발했습니다. FLOW는 계층별 이상치의 존재 및 분포를 고려하여 최적의 N과 M 값을 동적으로 선택합니다. 이를 통해 모델의 표현력을 높이고 성능을 향상시켰습니다. 실험 결과, FLOW는 기존 방법들보다 최대 36%의 정확도 향상을 보였습니다.
또한, 연구팀은 FLOW 알고리즘을 효율적으로 구현하기 위해 FlexCiM(Flexible Compute-in-Memory) 아키텍처를 개발했습니다. FlexCiM은 디지털 CiM(DCiM) 매크로를 작은 서브 매크로로 분할하고, 다양한 N과 M 값에 맞춰 이들을 동적으로 조합 및 분할하는 메커니즘을 사용합니다. 이를 통해 다양한 희소성 패턴을 효율적으로 지원하면서 기존의 희소성 가속기보다 최대 1.75배 빠른 추론 속도와 1.5배 낮은 에너지 소비를 달성했습니다.
이 연구는 Transformer 기반 및 순환 기반 상태 공간 기반 모델(SSM) 모두에서 효과를 보였으며, GitHub(https://github.com/FLOW-open-project/FLOW)에서 공개된 코드를 통해 누구나 활용할 수 있습니다. 이번 연구는 LLM의 성능 향상과 에너지 효율 증대에 크게 기여할 것으로 기대됩니다. 향후 연구에서는 더욱 다양한 LLM 아키텍처 및 응용 분야에서 FLOW와 FlexCiM의 성능을 평가하고, 더욱 효율적이고 강력한 LLM 추론 가속화 기술 개발을 위한 발판이 될 것으로 예상됩니다.
Reference
[arxiv] Accelerating LLM Inference with Flexible N:M Sparsity via A Fully Digital Compute-in-Memory Accelerator
Published: (Updated: )
Author: Akshat Ramachandran, Souvik Kundu, Arnab Raha, Shamik Kundu, Deepak K. Mathaikutty, Tushar Krishna
http://arxiv.org/abs/2504.14365v1