GPU 통신의 혁명: MSCCL++로 AI 성능의 한계를 뛰어넘다!


Microsoft 연구진이 개발한 MSCCL++는 GPU 통신의 새로운 추상화를 통해 AI 애플리케이션의 이식성과 성능을 동시에 향상시키는 혁신적인 라이브러리입니다. 실제 서비스 적용 및 AMD RCCL 채택 사례를 통해 그 효과와 우수성을 입증하였으며, 오픈소스로 공개되어 AI 분야의 발전에 기여할 것으로 기대됩니다.

related iamge

끊임없이 변화하는 하드웨어, 그리고 AI의 딜레마

최첨단 AI 애플리케이션 개발은 빠르게 진화하는 이종 컴퓨팅 환경에서 이루어집니다. 새로운 하드웨어에 발맞춰 AI 소프트웨어 스택을 지속적으로 업데이트해야 하는 어려움은 늘 존재해왔습니다. 일반적인 소프트웨어 라이브러리의 업데이트는 시간이 오래 걸리고, 결과적으로 실제 애플리케이션들은 특정 작업과 하드웨어에 최적화된 맞춤형 소프트웨어 스택을 개발하는 경향을 보였습니다. 이러한 맞춤형 스택은 빠른 개발과 최적화에는 효과적이지만, 비이식적인 코드 작성으로 인해 중복 작업이 많아지는 단점이 있습니다.

MSCCL++: 이식성과 성능, 두 마리 토끼를 잡다

Microsoft 연구진(Aashaka Shah, Abhinav Jangda 외 11명)이 개발한 MSCCL++는 이러한 문제에 대한 혁신적인 해결책을 제시합니다. GPU 통신의 새로운 추상화 계층을 통해 이식성과 성능을 동시에 확보하는 것이 핵심입니다. MSCCL++는 다음 두 가지 핵심 전략을 통해 이를 달성합니다.

  1. 최소한의 하드웨어 추상화: 소프트웨어 및 하드웨어 개발자가 맞춤형 통신을 개발할 수 있는 공통 기반을 제공하는 원시 인터페이스를 제공합니다.
  2. 이식 가능한 고급 인터페이스 및 특수 구현: 다양한 하드웨어 환경에 대한 최적화를 가능하게 합니다.

이러한 접근 방식을 통해 원시 인터페이스는 다양한 애플리케이션에서 재사용 가능하면서도, 동시에 유연한 최적화를 지원합니다. 기존의 NCCL, RCCL, MSCCL과 비교하여 MSCCL++는 집합적 통신에서 최대 3.8배, 실제 AI 추론 작업량에서 최대 15%의 속도 향상을 달성했습니다.

실제 적용과 미래

MSCCL++는 이미 Microsoft Azure의 여러 AI 서비스에 적용되어 실제 성능 향상을 입증했습니다. 뿐만 아니라, AMD의 GPU 집합적 통신 라이브러리인 RCCL에도 채택될 만큼 그 기술력을 인정받았습니다. GitHub(https://github.com/microsoft/mscclpp)에서 오픈소스로 공개되어 누구나 활용할 수 있다는 점 또한 주목할 만합니다.

MSCCL++의 등장은 단순한 라이브러리 개발을 넘어, AI 소프트웨어 개발의 패러다임을 바꿀 잠재력을 가지고 있습니다. 하드웨어 발전에 발맞춰 AI 애플리케이션의 성능과 개발 효율을 동시에 향상시키는 혁신적인 기술로서, 앞으로 AI 분야의 발전에 크게 기여할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] MSCCL++: Rethinking GPU Communication Abstractions for Cutting-edge AI Applications

Published:  (Updated: )

Author: Aashaka Shah, Abhinav Jangda, Binyang Li, Caio Rocha, Changho Hwang, Jithin Jose, Madan Musuvathi, Olli Saarikivi, Peng Cheng, Qinghua Zhou, Roshan Dathathri, Saeed Maleki, Ziyue Yang

http://arxiv.org/abs/2504.09014v1