CORE: 제약 조건을 고려한 단일 단계 강화 학습을 통한 시뮬레이션 기반 신경망 가속기 설계 혁신


본 논문은 시뮬레이션 기반 설계 공간 탐색(DSE)의 효율성을 높이기 위해 제약 조건을 고려한 단일 단계 강화 학습(RL) 방법인 CORE를 제안합니다. CORE는 구조화된 분포와 스케일링 그래프 기반 디코더, 그리고 보상 형성 기법을 통해 효율적인 샘플링과 제약 조건 만족을 달성하며, 비평가 없는 공식으로 학습 효율을 향상시킵니다. 신경망 가속기 하드웨어 매핑에 적용된 결과, 기존 방법보다 우수한 성능을 보였으며, 다양한 이산-연속 제약 설계 문제에 적용 가능한 일반적인 접근 방식입니다.

related iamge

CORE: 시뮬레이션 기반 신경망 가속기 설계의 혁명적인 전환

최근 발표된 논문 "CORE: Constraint-Aware One-Step Reinforcement Learning for Simulation-Guided Neural Network Accelerator Design"은 시뮬레이션 기반 설계 공간 탐색(DSE) 분야에 혁신적인 접근 방식을 제시합니다. Xiao, Xu, Yan, Mortazavi, 그리고 Nuzzo가 주도한 이 연구는 기존의 휴리스틱 및 다단계 강화 학습(RL) 방법들이 복잡한 제약 조건과 비용이 많이 드는 평가 과정 속에서 효율적인 샘플링과 제약 조건 만족의 균형을 맞추는 데 어려움을 겪는다는 문제점을 짚었습니다.

이러한 문제를 해결하기 위해 연구진은 CORE라는 새로운 단일 단계 RL 방법을 제안합니다. CORE는 설계 구성 요소 간의 의존성을 스케일링 그래프 기반 디코더를 통해 효과적으로 통합하여 구조화된 분포를 정의함으로써 샘플링 효율성을 극대화합니다. 또한, 시뮬레이션으로부터 얻은 피드백을 기반으로 잘못된 설계를 페널티화하는 보상 형성(reward shaping) 기법을 도입하여 제약 조건을 준수하도록 유도합니다.

특히 CORE는 가치 함수를 학습하지 않는 비평가 없는(critic-free) 공식을 채택합니다. 이는 샘플링된 배치 내에서 설계의 보상을 비교하여 정책을 업데이트하는 방식으로, 고보상 설계를 선택하도록 유도하여 학습 효율을 크게 향상시킵니다.

연구진은 신경망 가속기의 하드웨어 매핑 공동 설계에 CORE를 적용하여 그 성능을 검증했습니다. 그 결과, CORE는 기존 최첨단 기법들에 비해 샘플링 효율성을 크게 향상시켰으며, 더 나은 가속기 구성을 달성했습니다. 더욱 중요한 것은, CORE의 접근 방식이 일반적이어서 다양한 이산-연속 제약 설계 문제에 적용될 수 있다는 점입니다. 이는 CORE가 다양한 분야에서 폭넓게 활용될 수 있는 잠재력을 가지고 있음을 시사합니다.

결론적으로, CORE는 시뮬레이션 기반 DSE 분야에 획기적인 발전을 가져올 혁신적인 방법론으로 평가될 수 있습니다. 그 효율성과 범용성은 향후 다양한 설계 최적화 문제 해결에 큰 기여를 할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] CORE: Constraint-Aware One-Step Reinforcement Learning for Simulation-Guided Neural Network Accelerator Design

Published:  (Updated: )

Author: Yifeng Xiao, Yurong Xu, Ning Yan, Masood Mortazavi, Pierluigi Nuzzo

http://arxiv.org/abs/2506.03474v1