미래를 내다보는 강화학습: 불확실성 속에서 길을 찾다
류용수아이와 류신 연구팀은 불확실성을 고려한 모델 기반 강화학습의 새로운 프레임워크를 제시하여, 기존 방식의 한계를 극복하고 로봇 조작 및 게임 분야에서 성능 향상을 이끌었습니다. 불확실성 인식 계획과 탐색 정책을 통해 적은 데이터로도 높은 성능을 달성하는 획기적인 결과를 얻었습니다.

모델 기반 강화학습(MBRL)은 모델 자유 강화학습(MFRL)에 비해 샘플 효율성이 뛰어나다는 장점을 가지고 있습니다. 하지만 부정확한 모델은 정책 학습에 편향을 초래하여 잘못된 경로를 생성할 수 있다는 단점이 존재합니다. 특히, 방문 횟수가 적은 영역(불확실한 영역)에서는 정확한 모델을 얻기가 어렵습니다. 기존 방법들은 샘플 생성 후에 수동적으로 불확실성을 정량화하는데 그쳤습니다. 상태 공간의 범위를 넓히고 모델의 정확도를 높일 수 있는 불확실한 샘플을 적극적으로 수집하지 못했습니다. 게다가 MBRL은 정확한 다단계 예측에 어려움을 겪어 전반적인 성능에 영향을 미치기도 합니다.
류용수아이와 류신 연구팀은 이러한 한계점을 해결하기 위해 불확실성 인식 정책 최적화를 위한 모델 기반 탐색적 계획(Uncertainty-aware Policy Optimization with Model-based Exploratory Planning) 이라는 새로운 프레임워크를 제안했습니다. 이 프레임워크는 모델 기반 계획 단계에서 불확실성 인식 k-단계 선행 계획(Uncertainty-aware k-step lookahead planning) 접근 방식을 도입하여 각 단계에서 행동 선택을 안내합니다. 이 과정은 모델 불확실성과 가치 함수 근사 오차 간의 절충 분석을 포함하여 정책 성능을 효과적으로 향상시킵니다. 정책 최적화 단계에서는 불확실성 기반 탐색 정책(Uncertainty-driven exploratory policy)을 활용하여 다양한 훈련 샘플을 적극적으로 수집하여 모델의 정확도와 강화학습 에이전트의 전반적인 성능을 향상시킵니다.
이 연구는 다양한 상태/행동 공간과 보상 구조를 가진 작업에도 유연하게 적용될 수 있습니다. 로봇 조작 작업과 아타리 게임에 대한 실험을 통해 기존 최첨단 방법을 능가하는 성능 향상을 보였습니다. 적은 상호 작용으로도 뛰어난 성능을 달성하여 효율성을 입증했습니다.
이 연구는 불확실성을 적극적으로 고려하여 강화학습의 한계를 극복하고, 더욱 안정적이고 효율적인 인공지능 시스템 개발에 중요한 발걸음을 내딛었습니다. 미래의 불확실성을 예측하고 대비하는 인공지능, 이제 상상이 아닌 현실이 되어가고 있습니다. 🤖🚀
Reference
[arxiv] Look Before Leap: Look-Ahead Planning with Uncertainty in Reinforcement Learning
Published: (Updated: )
Author: Yongshuai Liu, Xin Liu
http://arxiv.org/abs/2503.20139v1