혜성처럼 빠른 개인정보 보호 LLM 추론 시스템, Comet 등장!
중국과학원 연구진이 개발한 Comet은 LLM의 활성화 스파스성을 예측하여 MPC의 성능 오버헤드를 획기적으로 줄인 프라이빗 추론 시스템입니다. 기존 시스템 대비 속도와 통신량을 최대 2.6배 이상 향상시키는 놀라운 성능을 보였습니다.

클라우드 기반 LLM 추론 서비스의 확산과 함께 민감한 정보 유출에 대한 우려가 커지고 있습니다. 이러한 문제 해결에 안전한 다자간 컴퓨팅(MPC)이 떠오르고 있지만, 서버 간 잦은 통신으로 인한 성능 저하가 걸림돌이었습니다.
하지만, 중국과학원 자동화연구소(Institute of Automation, Chinese Academy of Sciences)의 Guang Yan 박사를 비롯한 연구진이 개발한 Comet이 이러한 문제를 해결할 혁신적인 해결책을 제시했습니다. Comet은 LLM의 활성화 스파스성(대부분의 뉴런이 활성화되지 않는 현상)에 주목하여, 빠르고 정확한 예측 모델을 통해 0값 연산을 효율적으로 회피하는 새로운 프라이빗 추론 프로토콜을 도입했습니다.
Comet의 핵심은 다음과 같습니다.
- 활성화 스파스성 예측: LLM의 활성화 함수 출력에서 스파스성 분포를 정확하고 빠르게 예측합니다. 이를 통해 불필요한 연산을 줄입니다.
- 0값 연산 회피: 예측된 스파스 분포의 공간적 지역성을 활용하여 0값에 대한 연산을 안전하게 생략합니다.
- 저 통신 오버헤드 캐시 재채움 전략: 0값 연산 회피로 인한 KV 캐시 항목의 시공간적 연속성 저하 문제를 해결하기 위해, 미스 요청을 병합하고 프리페칭 메커니즘을 통합하는 전략을 사용합니다.
연구진은 4개의 일반적인 LLM을 사용하여 Comet을 평가하고 6개의 최첨단 프라이빗 추론 시스템과 비교했습니다. 그 결과, Comet은 속도가 1.87배에서 2.63배, 통신량은 1.94배에서 2.64배까지 감소하는 놀라운 성능 향상을 보였습니다. 이는 기존 시스템의 성능 한계를 뛰어넘는 획기적인 결과입니다.
결론적으로, Comet은 LLM의 개인정보 보호와 성능 향상이라는 두 마리 토끼를 모두 잡은 혁신적인 시스템입니다. 이 연구는 향후 프라이빗 LLM 추론 시스템 개발에 중요한 이정표를 제시할 것으로 기대됩니다. 앞으로 Comet이 어떻게 발전하고 실제 서비스에 적용될지 귀추가 주목됩니다. 🚀
Reference
[arxiv] Comet: Accelerating Private Inference for Large Language Model by Predicting Activation Sparsity
Published: (Updated: )
Author: Guang Yan, Yuhui Zhang, Zimu Guo, Lutan Zhao, Xiaojun Chen, Chen Wang, Wenhao Wang, Dan Meng, Rui Hou
http://arxiv.org/abs/2505.07239v1