OVERLORD: 대규모 다중 소스 기반 모델 훈련을 위한 데이터 로더의 궁극적인 확장성
본 기사는 중국 과학원 연구팀이 개발한 초거대 언어 모델 훈련용 분산 데이터 로딩 아키텍처 OVERLORD에 대해 소개합니다. OVERLORD는 중앙 집중식 데이터 관리, 역할 기반 분산 전처리, 섀도우 로더 등의 혁신적인 기술을 통해 훈련 처리량을 4.5배, CPU 메모리 사용량을 최소 3.6배 감소시키는 놀라운 성과를 달성했습니다.

초거대 언어 모델 훈련의 혁명: OVERLORD의 등장
최근 초거대 언어 모델(LLM)의 발전은 눈부십니다. 하지만 LLM을 훈련하는 과정은 여전히 많은 어려움을 안고 있습니다. 특히 방대한 데이터를 효율적으로 처리하는 것이 중요한 과제입니다. 기존의 데이터 병렬 처리 방식은 데이터 로더 간의 작업 부하 불균형과 다양한 데이터 소스 처리의 어려움으로 인해 훈련 효율성이 크게 저하되는 문제를 가지고 있었습니다.
중국 과학원 소속 연구팀은 이러한 문제를 해결하기 위해 혁신적인 분산 데이터 로딩 아키텍처인 OVERLORD를 개발했습니다. OVERLORD는 세 가지 핵심적인 혁신을 통해 LLM 훈련의 효율성을 극대화합니다.
OVERLORD의 세 가지 혁신:
중앙 집중식 선언형 데이터 플레인: 다양한 데이터 전략(장단기 컨텍스트, 다중 모달, 커리큘럼 학습 등)을 유연하게 적용할 수 있도록 데이터를 중앙에서 관리합니다. 이를 통해 데이터 활용의 효율성을 극대화합니다.
역할 기반 분산 전처리: Source Loader와 Data Constructor라는 역할 특화 액터를 통해 데이터 전처리를 분산 처리합니다. 특히, Source Loader는 자동 확장 기능을 통해 이기종적이고 변화하는 데이터 소스의 전처리 비용을 효율적으로 관리합니다. 이는 마치 여러 명의 전문가가 각자의 역할에 맞춰 작업을 분담하는 것과 같습니다.
차등 체크포인팅 기능을 갖춘 섀도우 로더: 장애 발생 시에도 중단 없이 훈련을 지속할 수 있도록 섀도우 로더를 통해 데이터 로딩을 백업합니다. 이를 통해 시스템 안정성을 크게 향상시킵니다. 마치 예비 시스템이 항상 대기하고 있어서 문제 발생 시 즉시 가동되는 것과 같습니다.
놀라운 성과:
OVERLORD는 실제 수천 개의 GPU를 사용하는 클러스터 환경에서 놀라운 성능을 보여주었습니다. 종단 간 훈련 처리량을 4.5배 향상시키고 CPU 메모리 사용량을 최소 3.6배 감소시켰습니다. 이는 LLM 훈련의 효율성을 획기적으로 개선한 엄청난 성과라고 할 수 있습니다.
OVERLORD는 단순한 기술적 개선을 넘어, 더욱 크고 복잡한 LLM을 훈련하는 새로운 가능성을 열었습니다. 앞으로 더욱 발전된 OVERLORD를 통해 더욱 강력하고 효율적인 LLM이 개발될 것으로 기대됩니다.
Reference
[arxiv] OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training
Published: (Updated: )
Author: Juntao Zhao, Qi Lu, Wei Jia, Borui Wan, Lei Zuo, Junda Feng, Jianyu Jiang, Yangrui Chen, Shuaishuai Cao, Jialing He, Kaihua Jiang, Yuanzhe Hu, Yanghua Peng, Haibin Lin, Xin Liu, Chuan Wu
http://arxiv.org/abs/2504.09844v1