혁신적인 HPC 스케줄링: 탈중앙화 분산 강화학습의 등장
본 기사는 탈중앙화 분산 근접 정책 최적화(DD-PPO) 알고리즘을 활용한 혁신적인 고성능 컴퓨팅(HPC) 스케줄링 연구에 대해 소개합니다. 기존의 규칙 기반 및 중앙 집중식 RL 기반 스케줄링의 한계를 극복하고, 대규모 분산 학습을 통해 확장성, 효율성 및 샘플 활용도를 높인 DD-PPO의 성과와 미래 전망을 다룹니다.

고성능 컴퓨팅(HPC) 환경에서 자원 할당은 늘 복잡한 문제였습니다. 작업 스케줄링 알고리즘은 단순히 자원을 효율적으로 배분하는 것을 넘어, 작업 대기 시간과 시스템 활용도 등 여러 성능 지표를 동시에 최적화해야 합니다. 기존의 규칙 기반 스케줄링 알고리즘이 주류를 이루고 있지만, HPC 시스템의 이질성과 규모가 커짐에 따라 이러한 알고리즘의 효율성과 유연성에 대한 의문이 제기되고 있습니다.
최근 연구는 강화 학습(Reinforcement Learning, RL)의 발전을 활용하여 더욱 적응력 있고 지능적인 스케줄링 전략을 개발하는 데 집중하고 있습니다. Deep Q-Networks(DQN)부터 Proximal Policy Optimization(PPO)까지, 그리고 최근에는 그래프 신경망(Graph Neural Networks)과 RL 기법을 통합한 하이브리드 방법까지 다양한 알고리즘이 시도되었죠. 하지만 이러한 방법들은 상대적으로 작은 데이터셋에 의존하며, 대규모 데이터셋을 사용할 때 확장성 문제에 직면하는 한계를 가지고 있습니다.
여기서 혁신적인 연구가 등장합니다. Matthew Sgambati, Aleksandar Vakanski, Matthew Anderson이 주도한 연구는 탈중앙화 분산 근접 정책 최적화(Decentralized Distributed Proximal Policy Optimization, DD-PPO) 알고리즘을 활용한 새로운 RL 기반 스케줄러를 제시했습니다. DD-PPO는 여러 작업자에 걸쳐 대규모 분산 학습을 지원하면서도 매 단계마다 매개변수 동기화가 필요하지 않습니다. 중앙 집중식 정책 업데이트에 대한 의존성을 제거함으로써 확장성, 학습 효율성 및 샘플 활용도를 크게 향상시키는 것이죠.
이 연구는 1150만 개가 넘는 실제 HPC 작업 추적 데이터를 활용하여 DD-PPO의 성능을 기존의 규칙 기반 스케줄러와 기존 RL 기반 스케줄링 알고리즘과 비교했습니다. 실험 결과, DD-PPO는 두 가지 기존 방법에 비해 향상된 스케줄링 성능을 보여주었습니다. 이는 HPC 분야의 스케줄링 문제에 대한 새로운 패러다임을 제시하는 중요한 성과라고 할 수 있습니다. DD-PPO의 등장으로 더욱 효율적이고 유연한 HPC 시스템 운영이 가능해질 것으로 기대됩니다. 앞으로 이 알고리즘이 더욱 발전하고 다양한 HPC 환경에 적용되어 실질적인 성능 개선을 가져올지 주목할 필요가 있습니다.
Reference
[arxiv] Decentralized Distributed Proximal Policy Optimization (DD-PPO) for High Performance Computing Scheduling on Multi-User Systems
Published: (Updated: )
Author: Matthew Sgambati, Aleksandar Vakanski, Matthew Anderson
http://arxiv.org/abs/2505.03946v1