혁신적인 AI 가상머신: 초저정밀도 GPGPU 컴퓨팅의 새 지평을 열다


Yaoyao Ding 외 연구팀이 개발한 새로운 AI 가상머신은 임의의 비트 너비를 지원하는 초저정밀도 GPGPU 컴퓨팅을 가능하게 하여, 기존 기술 대비 1.75배~2.61배의 성능 향상을 달성했습니다. 이는 LLM 서빙 효율을 극대화하고 AI 애플리케이션 발전에 크게 기여할 것으로 기대됩니다.

related iamge

대규모 언어 모델(LLM)의 서빙은 인공지능 애플리케이션의 핵심이지만, 막대한 컴퓨팅 자원, 특히 메모리 대역폭과 처리량을 필요로 합니다. 이러한 문제를 해결하기 위해 저정밀도 컴퓨팅이 주목받고 있으며, 자원 소모를 줄이면서 효율성을 높이는 핵심 기술로 자리매김하고 있습니다.

하지만 기존의 저정밀도 커널 생성 방식은 2의 제곱수로 제한된 가중치 비트 너비를 가지며, 고수준 GPU 프로그래밍 추상화로 인해 최적의 성능을 발휘하지 못하는 한계가 있었습니다. 이러한 추상화는 효율적인 저정밀도 계산에 필수적인 미세한 레지스터 관리 및 최적화된 메모리 접근 패턴과 같은 중요한 최적화를 제한했습니다.

Ding, Hou, Zhang, Lin, Chen, Hao, Wang, 그리고 Pekhimenko 연구팀은 이러한 문제를 해결하기 위해 임의의 비트 너비를 갖는 저정밀도 데이터 유형을 지원하면서 GPU 프로그래밍 기능을 유지하는 범용 GPU(GPGPU) 컴퓨팅을 위한 가상머신(VM)을 개발했습니다. 이 VM은 스레드 블록 수준 프로그래밍 모델, 계층적 메모리 공간, 새로운 대수적 레이아웃 시스템, 다양한 저정밀도 데이터 유형에 대한 광범위한 지원을 특징으로 합니다.

VM 프로그램은 자동 벡터화 및 명령어 선택을 통해 고효율 GPU 프로그램으로 컴파일됩니다. 광범위한 실험 결과, 이 VM은 다양한 저정밀도 데이터 유형을 효율적으로 지원하며, 지원되는 유형에 대해 최첨단 저정밀도 커널을 능가하는 성능을 보여줍니다. Triton, Ladder, QuantLLM, Marlin과 같은 기존 컴파일러 및 수동으로 최적화된 커널과 비교하여 각각 1.75배, 2.61배, 1.29배, 1.03배의 성능 향상을 달성했습니다.

이 연구는 LLM 서빙의 효율성을 획기적으로 높이는 동시에, 저정밀도 컴퓨팅 분야에 새로운 가능성을 제시하는 괄목할 만한 성과입니다. 임의의 비트 너비 지원은 더욱 유연하고 최적화된 저정밀도 연산을 가능하게 하여, 향후 AI 애플리케이션의 발전에 크게 기여할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving

Published:  (Updated: )

Author: Yaoyao Ding, Bohan Hou, Xiao Zhang, Allan Lin, Tianqi Chen, Cody Yu Hao, Yida Wang, Gennady Pekhimenko

http://arxiv.org/abs/2504.12984v1