Splitwiser: 제한된 자원에서도 효율적인 LLM 추론을 가능하게 하는 혁신적인 방법
Asad Aali, Adney Cardoza, Melissa Capo가 개발한 Splitwiser는 제한된 자원에서 LLM 추론의 효율성을 높이는 혁신적인 방법입니다. LLM 추론의 두 단계를 하나의 GPU에서 처리하여 오버헤드를 줄이고 Huggingface와 vLLM 아키텍처에 대한 구현을 오픈소스로 공개했습니다.

대규모 언어 모델(LLM)의 추론은 컴퓨팅 집약적인 프롬프트 계산과 메모리 집약적인 토큰 생성이라는 두 가지 주요 단계로 이루어집니다. 기존의 배치 및 스케줄링 기술에도 불구하고, 특히 프롬프트 계산 단계와 비교했을 때 토큰 생성 단계는 컴퓨팅 자원을 완전히 활용하지 못하는 어려움이 있습니다.
Asad Aali, Adney Cardoza, Melissa Capo 세 연구원은 이러한 문제를 해결하기 위해 Splitwiser라는 혁신적인 방법론을 제안했습니다. Splitwiser는 LLM 추론 요청의 두 단계를 동일한 GPU에서 분할하여 처리함으로써 오버헤드를 줄이고 메모리 접근 및 캐시 활용을 개선합니다. 데이터를 여러 장치 간에 전송할 필요가 없어짐으로써 네트워크 관련 오버헤드도 최소화합니다.
이 연구에서는 제안된 파이프라인의 기본 구조를 설명하고 예비 결과 및 분석을 공유합니다. 연구팀은 Huggingface와 vLLM이라는 두 가지 널리 사용되는 독립적인 LLM 아키텍처에 제안된 다중 처리 설계를 구현했습니다. 더욱이, 그들의 코드를 오픈소스로 공개하여 연구의 투명성과 재현성을 높였습니다. Huggingface 구현은 https://github.com/asad-aali/splitwiser 에서, vLLM 구현은 https://github.com/adney11/vllm-sysml 에서 확인할 수 있습니다.
Splitwiser는 제한된 자원 환경에서 LLM의 효율성을 극대화하고자 하는 중요한 발걸음입니다. 이 연구의 오픈소스 공개는 다른 연구자들이 이 방법론을 기반으로 더욱 발전된 연구를 수행하는 데 큰 도움을 줄 것으로 기대됩니다. 앞으로 Splitwiser가 LLM의 실제적인 응용 분야에 어떻게 기여할지 주목할 필요가 있습니다.
Reference
[arxiv] Splitwiser: Efficient LM inference with constrained resources
Published: (Updated: )
Author: Asad Aali, Adney Cardoza, Melissa Capo
http://arxiv.org/abs/2505.03763v1