오프라인 강화학습의 새로운 지평: 이산 확산 스킬(DDS) 알고리즘


본 논문은 이산적인 확산 스킬(DDS)을 활용한 새로운 오프라인 강화학습 알고리즘을 제시합니다. 트랜스포머와 확산 모델을 결합하여 효율성과 해석력을 높였으며, 다양한 벤치마크에서 기존 방법 대비 우수한 성능을 보였습니다.

related iamge

최근 RuiXi Qiao, Jie Cheng, Xingyuan Dai, Yonglin Tian, Yisheng Lv 연구팀이 발표한 논문 "Offline Reinforcement Learning with Discrete Diffusion Skills"는 오프라인 강화학습(RL) 분야에 혁신적인 돌파구를 제시합니다. 복잡하고 장기적인 과제를 해결하기 위해 시간적 추상화 개념인 '스킬'을 도입한 기존 연구들과는 달리, 이 연구는 이산적인 확산 스킬(Discrete Diffusion Skill, DDS) 이라는 새로운 접근법을 제시합니다.

기존의 오프라인 강화학습에서 스킬은 주로 연속적인 잠재 공간 내에서 모델링되었습니다. 하지만 이 연구팀은 이산적인 스킬 공간을 활용함으로써, 모델의 효율성과 해석 가능성을 크게 높였습니다. 이는 최첨단 트랜스포머 기반 인코더와 확산 기반 디코더를 결합하여 구현되었습니다. 트랜스포머는 상태를 효과적으로 인코딩하고, 확산 모델은 이산적인 스킬을 디코딩하여 행동을 생성하는 역할을 합니다.

이러한 DDS 알고리즘은 고차원 정책과 결합되어 계층적 강화학습 프레임워크를 구성합니다. 특히, 학습된 확산 디코더는 이 프레임워크에서 중추적인 역할을 수행합니다. 실험 결과는 DDS 알고리즘의 뛰어난 성능을 보여줍니다. Locomotion과 Kitchen과 같은 다양한 과제에서 경쟁력 있는 성능을 보였으며, 특히 장기적인 과제에서 두각을 나타냈습니다. AntMaze-v2 벤치마크에서는 기존의 오프라인 RL 접근 방식에 비해 최소 12% 이상의 성능 향상을 달성했습니다. 뿐만 아니라, DDS는 기존 스킬 기반 방법들에 비해 해석 가능성, 학습 안정성, 온라인 탐색 능력까지 향상시켰습니다.

이 연구는 오프라인 강화학습의 한계를 극복하고, 더욱 복잡하고 현실적인 문제에 적용될 가능성을 열었습니다. 이산적인 스킬 공간의 활용은 앞으로 강화학습 분야의 발전에 중요한 전환점이 될 것으로 예상됩니다. 더욱 심층적인 연구를 통해 DDS의 적용 범위를 확장하고, 다양한 분야에서의 활용 가능성을 탐구하는 것이 중요한 과제가 될 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Offline Reinforcement Learning with Discrete Diffusion Skills

Published:  (Updated: )

Author: RuiXi Qiao, Jie Cheng, Xingyuan Dai, Yonglin Tian, Yisheng Lv

http://arxiv.org/abs/2503.20176v1