꿈꿔왔던 70B 규모 LLM, 이제 집에서! prima.cpp의 놀라운 성과


prima.cpp는 일반 가정용 하드웨어에서 70B 규모의 거대 언어 모델 추론을 가능하게 하는 혁신적인 분산 추론 시스템입니다. 오픈소스로 공개되어 누구나 첨단 AI 기술을 경험할 수 있게 되었습니다.

related iamge

최근 DeepSeek R1과 QwQ 32B와 같은 모델들의 등장으로 거대 언어 모델(LLM)의 성능은 놀라운 수준에 도달했습니다. 하지만 이러한 모델들을 구동하려면 고성능 GPU 클러스터, 막대한 RAM/VRAM, 그리고 높은 대역폭이 필요하여 일반 사용자들에게는 여전히 그림의 떡이었습니다.

하지만 이제 희망이 있습니다! Zonghang Li를 비롯한 연구팀이 개발한 prima.cpp가 바로 그 해답입니다. prima.cpp는 CPU/GPU 혼합 환경, 제한된 RAM/VRAM, Wi-Fi 네트워크, 그리고 크로스 플랫폼 지원을 통해 일반 가정용 하드웨어에서 70B 규모의 LLM 추론을 가능하게 하는 분산 추론 시스템입니다.

prima.cpp의 핵심은 다음과 같습니다.

  • mmap을 이용한 모델 가중치 관리: 메모리 매핑을 통해 모델 가중치를 효율적으로 관리합니다.
  • 파이프드-링 병렬 처리 및 프리페칭: 디스크 로딩 시간을 최소화합니다.
  • 계산, 통신, 디스크, 메모리 및 OS의 이기종성 모델링: 각 장치의 CPU와 GPU에 모델 레이어를 최적으로 할당하여 토큰 지연 시간을 줄입니다.
  • Halda 알고리즘: NP-hard 할당 문제를 해결하는 우아한 알고리즘입니다.

연구팀은 네 노드로 구성된 일반 가정용 클러스터에서 prima.cpp를 평가했습니다. 그 결과, llama.cpp, exo, dllama를 능가하는 성능을 보였으며, 메모리 사용량은 6% 미만으로 유지했습니다. 이는 Llama 3, DeepSeek R1, Qwen 2.5, QwQ와 같은 최첨단 30B-70B 모델들을 일반 가정에서 사용할 수 있게 함으로써, 첨단 AI 기술을 개인 사용자들에게 제공하는 혁신적인 성과입니다.

더욱 놀라운 점은 prima.cpp가 오픈소스로 공개되었다는 것입니다! (https://github.com/Lizonghang/prima.cpp) 이제 누구든지 자신의 집에서 첨단 AI를 경험할 수 있는 기회를 얻게 되었습니다. 이는 AI 기술의 대중화에 한 걸음 더 다가선 중요한 이정표라 할 수 있습니다. 앞으로 prima.cpp가 어떻게 발전하고 활용될지 기대됩니다!


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] PRIMA.CPP: Speeding Up 70B-Scale LLM Inference on Low-Resource Everyday Home Clusters

Published:  (Updated: )

Author: Zonghang Li, Tao Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu

http://arxiv.org/abs/2504.08791v1