슈퍼컴퓨팅의 혁명: 초거대 언어 모델 훈련 속도 획기적으로 향상시킨 PCCL
본 기사는 Siddharth Singh 등 연구진이 개발한 새로운 통신 라이브러리 PCCL에 대해 다룹니다. PCCL은 GPU 기반 슈퍼컴퓨터에서 대규모 언어 모델 훈련 속도를 기존 라이브러리 대비 최대 70배까지 향상시켜 AI 발전에 크게 기여할 것으로 기대됩니다.

인공지능(AI)의 눈부신 발전과 함께 초거대 언어 모델(LLM)의 훈련은 슈퍼컴퓨터의 성능에 크게 의존하게 되었습니다. 하지만 기존의 GPU 기반 슈퍼컴퓨터에서 LLM을 효율적으로 훈련하는 데는 여러 기술적 난관이 존재했습니다. Siddharth Singh, Mahua Singh, Abhinav Bhatele 등 연구진은 최근 발표한 논문 "The Big Send-off: High Performance Collectives on GPU-based Supercomputers"에서 이러한 문제에 대한 해결책을 제시했습니다.
기존 라이브러리의 한계: 속도의 벽
기존의 통신 라이브러리인 RCCL과 Cray-MPICH는 Frontier와 같은 대규모 GPU 시스템에서 성능 저하를 보였습니다. Cray-MPICH는 네트워크와 컴퓨팅 자원을 제대로 활용하지 못했고, RCCL은 심각한 확장성 문제를 나타냈습니다. 이는 LLM 훈련 속도를 크게 제한하는 걸림돌이었습니다. 마치 고속도로를 달리는 자동차가 좁은 도로에 진입하는 것과 같았습니다.
PCCL의 등장: 속도의 돌파구
연구진은 이러한 문제를 해결하기 위해 새로운 통신 라이브러리인 PCCL을 개발했습니다. PCCL은 all-gather 및 reduce-scatter 연산에 대한 최적화된 구현을 통해 네트워크와 컴퓨팅 자원을 최대한 활용하도록 설계되었습니다. 수천 개의 GPU로 구성된 시스템에서도 효율적으로 확장될 수 있도록 만들어졌습니다.
그 결과는 놀라웠습니다. Frontier의 2048개 GPU에서 all-gather 연산 속도를 기존 RCCL 대비 633배, Cray-MPICH 대비 2870배 향상시켰습니다. 이는 단순한 수치 이상의 의미를 지닙니다. 70억 개 매개변수 모델과 130억 개 매개변수 모델의 GPT-3 스타일 훈련에서 PCCL은 RCCL 대비 최대 60% 및 40%의 속도 향상을 달성했습니다. 마치 낡은 자동차를 최신 스포츠카로 바꿔치기 한 것과 같은 엄청난 변화입니다.
미래를 향한 도약: AI 발전의 가속화
PCCL의 개발은 LLM 훈련의 속도를 획기적으로 향상시키는 중요한 이정표가 될 것입니다. 이는 더욱 크고 복잡한 모델을 훈련할 수 있는 가능성을 열어주고, AI 기술 발전을 가속화하는 데 크게 기여할 것입니다. PCCL의 성공은 단순한 기술적 진보를 넘어, AI 시대의 새로운 가능성을 보여주는 상징적인 사건입니다. 앞으로도 이러한 기술 발전이 계속될 것이며, 우리는 더욱 놀라운 AI 기술의 발전을 목격하게 될 것입니다.
Reference
[arxiv] The Big Send-off: High Performance Collectives on GPU-based Supercomputers
Published: (Updated: )
Author: Siddharth Singh, Mahua Singh, Abhinav Bhatele
http://arxiv.org/abs/2504.18658v1