엣지 디바이스에서 초고속, 고효율 협업 추론을 가능하게 하는 Jupiter: 생성형 거대 언어 모델의 혁신
본 기사는 Shengyuan Ye 등 연구진이 개발한 협업적 에지 AI 시스템 Jupiter에 대해 소개합니다. Jupiter는 생성형 LLM의 추론 속도를 획기적으로 향상시키는 기술로, Prefill 및 Decoding 단계의 특성에 맞춘 차별화된 병렬 처리 전략을 통해 최대 26.1배의 지연 시간 단축을 달성했습니다.

엣지 디바이스의 한계를 뛰어넘는 혁신: Jupiter의 등장
최근 생성형 거대 언어 모델(LLM)이 여러 AI 작업에서 뛰어난 성능을 보이며 주목받고 있습니다. 기존에는 클라우드 데이터센터에 주로 배포되었지만, 개인정보 보호 및 데이터 프라이버시 강화를 위해 엣지 플랫폼으로의 확장이 가속화되고 있습니다.
하지만 개별 엣지 디바이스의 제한된 연산 능력은 추론 지연 시간을 과도하게 증가시키고 메모리 과부하를 야기하는 문제점을 안고 있습니다. 기존의 협업적 에지 컴퓨팅 연구는 이러한 문제 해결에 도전했지만, 여전히 상당한 통신 오버헤드와 에지 리소스의 저활용 문제를 안고 있었습니다. 특히, 생성형 LLM의 핵심인 자동 회귀적 디코딩 단계는 충분히 고려되지 않았습니다.
여기서 혁신적인 시스템, Jupiter가 등장합니다.
Ye Shengyuan 등 연구진이 개발한 Jupiter는 생성형 LLM 추론을 위한 빠르고, 확장성이 뛰어나며, 리소스 효율적인 협업적 에지 AI 시스템입니다. Jupiter는 Prefill 단계와 Decoding 단계의 특성에 따라 차별화된 설계를 도입했습니다.
Prefill 단계: Jupiter는 새로운 Intra-sequence pipeline parallelism을 도입하고, 정교한 병렬 처리 전략을 통해 리소스 효율을 극대화합니다. 이는 마치 잘 조율된 오케스트라처럼 각 에지 디바이스가 자신의 역할에 집중하여 전체 처리 속도를 높이는 전략입니다.
Decoding 단계: Jupiter는 Outline-based pipeline parallel decoding 메커니즘과 Speculative decoding을 결합하여 추론 속도를 더욱 향상시킵니다. 이는 마치 미래를 예측하며 작업을 미리 준비하는 것과 같아, 불필요한 지연을 최소화합니다.
실제 구현을 기반으로 한 광범위한 평가 결과, Jupiter는 다양한 에지 환경 설정에서 기존 최첨단 방식을 압도적으로 능가하는 성능을 보였습니다. 최대 26.1배의 종단 간 지연 시간 단축을 달성하면서 동시에 생성 품질은 유지했습니다.
Jupiter는 단순한 성능 향상을 넘어, 에지 컴퓨팅 환경에서 생성형 LLM의 실질적인 활용을 가능하게 하는 획기적인 기술로 평가받고 있습니다. 앞으로 더욱 발전된 Jupiter를 통해 개인 정보 보호를 유지하면서 강력한 AI 기능을 누릴 수 있는 미래가 기대됩니다.
Reference
[arxiv] Jupiter: Fast and Resource-Efficient Collaborative Inference of Generative LLMs on Edge Devices
Published: (Updated: )
Author: Shengyuan Ye, Bei Ouyang, Liekang Zeng, Tianyi Qian, Xiaowen Chu, Jian Tang, Xu Chen
http://arxiv.org/abs/2504.08242v1