딥러닝 성능 혁신: 통합 NPU에서 다중 테넌트 DNN의 캐시 효율을 극대화하는 CaMDN
본 기사는 중국과학원 소프트웨어연구소 연구팀이 개발한 CaMDN에 대해 다룹니다. CaMDN은 통합 NPU 상의 다중 테넌트 DNN의 캐시 효율을 향상시키는 아키텍처-스케줄링 공동 설계로, 경량 아키텍처와 스마트한 캐시 스케줄링을 통해 메모리 액세스를 감소시키고 모델 속도를 향상시킵니다. 기존 연구 대비 평균 33.4%의 메모리 액세스 감소 및 최대 2.56배의 속도 향상을 달성하여 딥러닝 애플리케이션 성능 개선에 큰 기여를 할 것으로 기대됩니다.

최근 딥러닝(DNN) 애플리케이션의 급속한 발전으로, 여러 DNN이 단일 SoC에 공존하는 다중 테넌트 실행이 주류 추세가 되고 있습니다. 기존 연구에서는 다중 테넌트 성능 향상을 위한 다양한 방법이 제안되었지만, 공유 캐시의 영향은 제대로 연구되지 않았습니다.
중국과학원 소프트웨어연구소의 Tianhao Cai를 비롯한 연구팀은 이러한 문제에 주목하여 CaMDN이라는 새로운 아키텍처-스케줄링 공동 설계를 제안했습니다. CaMDN은 통합 NPU(Neural Processing Unit) 상에서 다중 테넌트 DNN의 캐시 효율을 향상시키는 혁신적인 기술입니다.
CaMDN의 핵심은 두 가지:
- 경량 아키텍처: 공유 캐시 내에 모델 독점적인 NPU 제어 영역을 지원하여 예기치 않은 캐시 경합을 효과적으로 제거합니다. 이는 마치 각 DNN에게 개인 전용 공간을 제공하여 서로 간섭 없이 원활하게 작업할 수 있도록 하는 것과 같습니다.
- 스마트한 캐시 스케줄링: 가용 캐시 용량의 변화에 적응할 수 있는 캐시 인식 매핑 기법과, 실행 시 공동 배치된 DNN 간의 캐시 사용량을 동적으로 조절하는 알고리즘을 포함합니다. 이는 마치 교통 경찰처럼 캐시 자원을 효율적으로 관리하여 모든 DNN이 최적의 성능을 발휘하도록 돕는 역할을 합니다.
놀라운 성능 향상: 연구 결과, CaMDN은 기존 연구 대비 평균 33.4%의 메모리 액세스 감소와 최대 2.56배(평균 1.88배) 의 모델 속도 향상을 달성했습니다. 이는 딥러닝 애플리케이션의 성능을 획기적으로 개선할 수 있는 잠재력을 보여줍니다.
결론적으로, CaMDN은 통합 NPU 상에서 다중 테넌트 DNN의 캐시 효율을 극대화하는 혁신적인 기술로, 향후 딥러닝 분야의 발전에 크게 기여할 것으로 기대됩니다. 이 연구는 공유 자원 관리의 중요성을 강조하며, 효율적인 자원 관리를 통해 딥러닝 성능의 한계를 뛰어넘을 수 있음을 보여주는 중요한 사례입니다. 앞으로 CaMDN을 기반으로 한 다양한 응용 연구가 활발히 진행될 것으로 예상됩니다.
Reference
[arxiv] CaMDN: Enhancing Cache Efficiency for Multi-tenant DNNs on Integrated NPUs
Published: (Updated: )
Author: Tianhao Cai, Liang Wang, Limin Xiao, Meng Han, Zeyu Wang, Lin Sun, Xiaojian Liao
http://arxiv.org/abs/2505.06625v1