740개 GPU로 12분 걸리던 화학 기초 모델 훈련 시간을 단 2분으로 단축시킨 놀라운 연구!


본 연구는 화학 기초 모델(CFM)의 훈련 효율을 극대화하기 위해 데이터 분배 및 핵심 연산 커널 최적화 기법을 제시합니다. 740개 GPU를 이용한 실험 결과, epoch 당 훈련 시간이 12분에서 2분으로 감소하는 놀라운 성과를 달성했습니다.

related iamge

혁신적인 최적화 기법으로 화학 기초 모델 훈련의 혁명을 이끌다!

최근 Jesun Firoz 등 20명의 연구진이 발표한 논문 "Optimizing Data Distribution and Kernel Performance for Efficient Training of Chemistry Foundation Models: A Case Study with MACE"는 화학 기초 모델(CFM) 훈련의 효율성을 획기적으로 높이는 방법을 제시하여 학계의 큰 주목을 받고 있습니다. CFM은 그래프 신경망(GNN)을 활용하여 3D 분자 구조를 처리하는 모델로, 신물질 발견과 재료 과학 분야에서 핵심적인 역할을 수행합니다.

하지만 기존 CFM 훈련 방식은 데이터 분배의 불균형과 연산 커널의 비효율성으로 인해 훈련 시간이 매우 길다는 문제점을 가지고 있었습니다. 이를 해결하기 위해 연구진은 두 가지 핵심적인 최적화 전략을 제시했습니다.

1. 똑똑한 데이터 분배: 연구진은 데이터 분배 문제를 다목적 빈 패킹 문제(multi-objective bin packing problem)로 정의하여 접근했습니다. 이는 마치 여러 개의 상자(GPU)에 크기가 다른 물건(데이터)을 효율적으로 담는 문제와 같습니다. 연구진은 이 문제에 대한 반복적인 알고리즘을 개발하여, 모든 GPU에 데이터가 고르게 분배되도록 하였습니다. 이를 통해 훈련 과정의 병목 현상을 해소하고 효율적인 병렬 처리를 가능하게 했습니다.

2. 핵심 연산 커널 최적화: 연구진은 MACE라는 최첨단 CFM의 핵심 연산 커널로 '대칭 텐서 수축'을 꼽았습니다. 이 커널의 성능을 개선하는 데 집중하여, 전체 훈련 속도를 끌어올렸습니다.

놀라운 결과: 이러한 두 가지 최적화 전략을 결합한 결과, 740개의 GPU를 사용한 MACE 훈련에서 epoch 당 실행 시간을 12분에서 2분으로 단축시키는 놀라운 성과를 달성했습니다. 2.6M개의 샘플 데이터셋을 사용한 실험에서 이러한 획기적인 속도 향상을 확인했습니다. 이는 CFM 연구 및 응용 분야에 큰 전환점이 될 것으로 예상됩니다. 이 연구는 단순한 기술적 진보를 넘어, 화학 및 재료 과학 분야의 혁신적인 발견을 앞당길 잠재력을 지니고 있습니다. 앞으로 더욱 발전된 CFM 기술을 통해 신약 개발, 신소재 합성 등 다양한 분야에서 혁신적인 성과가 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Optimizing Data Distribution and Kernel Performance for Efficient Training of Chemistry Foundation Models: A Case Study with MACE

Published:  (Updated: )

Author: Jesun Firoz, Franco Pellegrini, Mario Geiger, Darren Hsu, Jenna A. Bilbrey, Han-Yi Chou, Maximilian Stadler, Markus Hoehnerbach, Tingyu Wang, Dejun Lin, Emine Kucukbenli, Henry W. Sprueill, Ilyes Batatia, Sotiris S. Xantheas, MalSoon Lee, Chris Mundy, Gabor Csanyi, Justin S. Smith, Ponnuswamy Sadayappan, Sutanay Choudhury

http://arxiv.org/abs/2504.10700v1