10,000개의 초거대 언어 모델을 단일 GPU로? HMI 시스템이 이뤄낸 놀라운 성과


중국과학원 연구진이 개발한 HMI 시스템은 계층적 지식 관리를 통해 단일 GPU에서 최대 10,000개의 초거대 언어 모델을 효율적으로 운영할 수 있음을 보여주는 획기적인 연구 결과입니다. 계층적 PLM 구축, 효율적인 지식 관리, 시스템 최적화를 통해 메모리 사용량 감소와 성능 향상을 동시에 달성했습니다.

related iamge

최근 급증하는 초거대 언어 모델(PLM)의 활용은 막대한 컴퓨팅 자원을 필요로 합니다. 특히, 여러 사용자(테넌트)가 동시에 PLM을 사용하는 다중 테넌트 환경에서는 효율적인 자원 관리가 매우 중요한 과제입니다. 중국과학원의 연구진(Jun Zhang 외)은 이러한 문제를 해결하기 위해 HMI(Hierarchical knowledge management-based Multi-tenant Inference) 시스템을 개발했습니다.

HMI의 핵심은 계층적 지식 관리입니다. 연구진은 PLM의 지식을 일반 지식, 도메인 특화 지식, 작업 특화 지식으로 분류하고, 이를 계층적으로 관리하는 hPLM(Hierarchical PLMs)을 구축했습니다. 이를 통해 각 테넌트 당 GPU 메모리 사용량을 획기적으로 줄일 수 있었습니다. 이는 마치 거대한 도서관을 일반 서적, 전문 서적, 참고 자료로 체계적으로 분류하여 필요한 정보에 빠르게 접근하는 것과 같습니다.

하지만 단순한 분류만으로는 부족합니다. HMI는 도메인 특화 지식을 빈도 기반으로 트리 구조로 관리하고, 작업 특화 지식은 매개변수 스왑 기법을 통해 제한된 GPU 메모리 내에서 효율적으로 관리합니다. 이는 도서관의 효율적인 관리 시스템과 같습니다. 자주 사용하는 책은 눈에 잘 띄는 곳에 배치하고, 필요에 따라 책을 교체하여 공간을 효율적으로 활용하는 것입니다.

더 나아가, 연구진은 시스템 최적화를 통해 성능을 향상시켰습니다. 계층적 지식 프리페칭을 통한 세분화된 파이프라이닝으로 CPU 및 I/O 작업과 GPU 연산의 중첩을 구현하고, 배치 행렬 곱셈 최적화를 통해 병렬 처리 성능을 높였습니다. 이러한 최적화는 마치 도서관의 컨베이어 벨트 시스템과 같습니다. 정보를 신속하게 전달하고 처리하여 사용자 대기 시간을 최소화합니다.

결과적으로, HMI는 단일 GPU에서 최대 10,000개의 hPLM(hBERT 및 hGPT 포함)을 효율적으로 처리하면서 정확도 저하는 거의 없다는 놀라운 성과를 달성했습니다. 이는 마치 작은 도서관에서 수만 권의 책을 효율적으로 관리하고, 누구든 원하는 정보에 즉시 접근할 수 있도록 하는 것과 같습니다. 이 연구는 초거대 언어 모델의 실용화에 한 걸음 더 다가서는 중요한 이정표가 될 것입니다. 하지만, 더 많은 테넌트와 다양한 PLM에 대한 확장성 테스트 및 실제 서비스 환경 적용을 위한 추가 연구가 필요합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] HMI: Hierarchical Knowledge Management for Efficient Multi-Tenant Inference in Pretrained Language Models

Published:  (Updated: )

Author: Jun Zhang, Jue Wang, Huan Li, Lidan Shou, Ke Chen, Gang Chen, Qin Xie, Guiming Xie, Xuejian Gong

http://arxiv.org/abs/2504.17449v1