혁신적인 강화학습: 확산 모델로 탐험의 지평을 넓히다
Xiaoyi Dong, Jian Cheng, Xi Sheryl Zhang 연구팀은 확산 모델을 이용한 최대 엔트로피 강화학습(MaxEntDP)을 제안하여 기존 가우시안 정책의 한계를 극복하고 Mujoco 벤치마크에서 우수한 성능을 달성했습니다. GitHub를 통해 공개된 코드는 다른 연구자들의 활용을 촉진할 것으로 기대됩니다.

최근, Xiaoyi Dong, Jian Cheng, Xi Sheryl Zhang 연구팀이 발표한 논문 "Maximum Entropy Reinforcement Learning with Diffusion Policy"는 강화학습 분야에 새로운 이정표를 제시합니다. 기존의 최대 엔트로피 강화학습(MaxEnt RL)은 주로 가우시안 정책을 사용하는 Soft Actor-Critic (SAC) 알고리즘에 의존해 왔습니다. 가우시안 정책은 단순한 작업에서는 효과적이지만, 복잡한 다중 목표 환경에서는 탐색 능력과 성능에 한계를 보였습니다. 왜냐하면 가우시안 분포는 단봉성(unimodality)을 가지기 때문입니다.
연구팀은 이러한 한계를 극복하기 위해 강력한 생성 모델인 확산 모델을 MaxEnt RL의 정책 표현으로 도입했습니다. 이를 통해 개발된 MaxEntDP는 복잡한 다중 모드 분포를 포착할 수 있는 확산 모델의 장점을 활용, 보다 효율적인 탐색을 가능하게 하고 최적의 MaxEnt 정책에 더욱 근접할 수 있도록 설계되었습니다.
Mujoco 벤치마크 실험 결과, MaxEntDP는 기존의 가우시안 정책 및 다른 생성 모델 기반 MaxEnt RL 알고리즘을 능가하는 성능을 보였으며, 최첨단 확산 기반 온라인 강화학습 알고리즘과 비교해도 동등한 수준의 성능을 달성했습니다. 특히, 다중 모드 분포를 효과적으로 학습함으로써, 기존 방법이 어려움을 겪던 복잡한 환경에서도 뛰어난 적응력을 보였습니다. 더욱 고무적인 것은, 연구팀이 GitHub (https://github.com/diffusionyes/MaxEntDP) 에 코드를 공개하여, 다른 연구자들이 이 혁신적인 방법을 쉽게 활용하고 발전시킬 수 있도록 했습니다.
이 연구는 단순히 새로운 알고리즘을 제시하는 것을 넘어, 확산 모델의 강력한 생성 능력을 강화학습에 효과적으로 적용한 중요한 사례입니다. MaxEntDP는 향후 다양한 복잡한 문제 해결에 기여할 잠재력을 가지며, 강화학습 분야의 발전에 중요한 기여를 할 것으로 기대됩니다. 복잡한 현실 세계 문제에 대한 강화학습의 적용 범위를 넓히는 데 중요한 발걸음이 될 것입니다.
Reference
[arxiv] Maximum Entropy Reinforcement Learning with Diffusion Policy
Published: (Updated: )
Author: Xiaoyi Dong, Jian Cheng, Xi Sheryl Zhang
http://arxiv.org/abs/2502.11612v2