혁신적인 AI 가상 머신 'Tilus': LLM 서빙의 새로운 지평을 열다
본 기사는 저정밀도 GPGPU 컴퓨팅을 위한 혁신적인 가상 머신 'Tilus'에 대한 최신 연구 결과를 소개합니다. 'Tilus'는 기존 기술의 한계를 극복하고, 최첨단 기술 대비 뛰어난 성능 향상을 보여주는 획기적인 기술로, LLM 서빙 효율 극대화에 기여할 것으로 기대됩니다.

대규모 언어 모델(LLM)의 서빙은 AI 기반 애플리케이션의 핵심이지만, 막대한 컴퓨팅 자원, 특히 메모리 대역폭과 처리량을 필요로 합니다. 저정밀도 컴퓨팅은 자원 소모를 줄이면서 효율성을 높이는 주요 기술로 부상했지만, 기존 방식은 2의 제곱수로 제한된 가중치 비트 너비와 높은 수준의 GPU 프로그래밍 추상화로 인한 최적 성능 저하라는 한계를 가지고 있었습니다. 높은 수준의 추상화는 효율적인 저정밀도 계산에 필수적인 미세한 레지스터 관리 및 최적화된 메모리 액세스 패턴과 같은 중요한 최적화를 제한합니다.
이러한 문제를 해결하기 위해, 야오야오 딩(Yaoyao Ding) 등 연구진은 임의의 비트 너비를 갖는 저정밀도 데이터 유형을 지원하면서 GPU 프로그래밍 기능을 유지하는 범용 GPU(GPGPU) 컴퓨팅을 위한 가상 머신(VM)인 'Tilus'를 개발했습니다. 'Tilus'는 스레드 블록 수준의 프로그래밍 모델, 계층적 메모리 공간, 새로운 대수적 레이아웃 시스템, 그리고 다양한 저정밀도 데이터 유형에 대한 광범위한 지원을 특징으로 합니다. 'Tilus' 프로그램은 자동 벡터화 및 명령어 선택을 통해 고효율 GPU 프로그램으로 컴파일됩니다.
연구진은 광범위한 실험을 통해 'Tilus'가 다양한 저정밀도 데이터 유형을 효율적으로 지원하며, 지원되는 유형에 대해 최첨단 저정밀도 커널을 능가하는 성능을 보임을 입증했습니다. Triton, Ladder와 같은 기존 컴파일러는 물론 QuantLLM, Marlin과 같은 수동으로 최적화된 커널과 비교하여, 'Tilus'는 각각 1.75배, 2.61배, 1.29배, 1.03배의 성능 향상을 달성했습니다.
'Tilus'는 LLM 서빙의 효율성을 획기적으로 개선하여 AI 애플리케이션의 성능과 확장성을 한 단계 끌어올릴 잠재력을 가지고 있습니다. 이는 AI 기술 발전에 중요한 기여이며, 앞으로 더욱 발전된 저정밀도 컴퓨팅 기술의 발전 방향을 제시하는 중요한 연구 결과입니다. 향후 'Tilus'가 더욱 다양한 분야에서 활용되고, 더욱 발전된 기술로 이어질 것을 기대하며 지켜볼 필요가 있습니다.
Reference
[arxiv] Tilus: A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving
Published: (Updated: )
Author: Yaoyao Ding, Bohan Hou, Xiao Zhang, Allan Lin, Tianqi Chen, Cody Yu Hao, Yida Wang, Gennady Pekhimenko
http://arxiv.org/abs/2504.12984v2