혁신적인 ARM SVE 최적화: oneDAL이 이끄는 데이터 과학의 새로운 지평


Chandan Sharma 등 연구진은 oneDAL을 ARM SVE 아키텍처로 포팅하고, ARM 특화 최적화를 통해 ML 성능을 비약적으로 향상시켰습니다. 이는 비용 효율적인 고성능 컴퓨팅을 위한 ARM의 경쟁력을 강조하는 획기적인 연구입니다.

related iamge

최근 발표된 연구 논문에서 Chandan Sharma를 비롯한 8명의 연구진은 ARM Scalable Vector Extension(SVE)을 활용한 oneDAL 최적화를 통해 고성능 컴퓨팅(HPC) 및 머신러닝(ML) 분야에 혁신적인 변화를 가져올 가능성을 제시했습니다. 기존 oneDAL은 Intel MKL에 의존하여 x86 플랫폼에 국한되었으나, 이번 연구는 OpenBLAS를 대체 백엔드로 사용하여 ARM SVE 아키텍처로의 성공적인 포팅을 이뤄냈습니다.

이는 단순한 포팅을 넘어, 연구진은 ARM SVE에 특화된 몇 가지 혁신적인 최적화 기술을 선보였습니다. 여기에는 사용자 정의 스파스 행렬 루틴, 벡터화된 통계 함수, 그리고 SVE 최적화 지원 벡터 머신(SVM) 알고리즘이 포함됩니다. 특히 SVM 알고리즘의 경우, SVE의 가변 벡터 길이와 조건부 실행을 활용하여 Boser 방법에서는 22%, Thunder 방법에서는 5%의 성능 향상을 달성했습니다. AWS Graviton3 인스턴스를 이용한 벤치마크 결과는 기존 scikit-learn 구현 대비 최대 200배의 ML 학습 및 추론 속도 향상을 보여주었습니다. 놀랍게도, ARM 최적화 oneDAL은 IceLake x86 시스템의 oneDAL(MKL 백엔드)과 성능이 동등하거나 심지어 능가하는 결과를 보여주었는데, IceLake x86 시스템은 AWS Graviton3 ARM 인스턴스보다 거의 두 배나 비쌉니다.

이러한 결과는 데이터 집약적인 ML 애플리케이션에 있어서 ARM이 고성능, 에너지 효율적인 플랫폼으로 자리 잡을 가능성을 강력하게 시사합니다. 또한, 이 연구는 다양한 아키텍처 간의 호환성을 확장하고 오픈소스 생태계에 기여함으로써 HPC와 ML 분야에서 ARM의 경쟁력을 더욱 강화하고, 데이터 집약적 컴퓨팅의 미래를 위한 발판을 마련했습니다. 비용 효율성과 성능을 동시에 만족시키는 ARM 기반의 고성능 컴퓨팅 시대가 눈앞에 다가왔음을 보여주는 중요한 연구 결과입니다.

핵심 내용:

  • oneDAL의 ARM SVE 포팅 성공 및 성능 향상
  • ARM SVE 특화 최적화 기술 개발 (스파스 행렬, 벡터화 통계 함수, SVE 최적화 SVM)
  • AWS Graviton3 인스턴스 기반 벤치마크를 통한 성능 검증 (최대 200배 속도 향상)
  • x86 시스템과의 성능 비교 및 비용 효율성 강조

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] oneDAL Optimization for ARM Scalable Vector Extension: Maximizing Efficiency for High-Performance Data Science

Published:  (Updated: )

Author: Chandan Sharma, Rakshith GB, Ajay Kumar Patel, Dhanus M Lal, Darshan Patel, Ragesh Hajela, Masahiro Doteguchi, Priyanka Sharma

http://arxiv.org/abs/2504.04241v1