숨겨진 모델 POMDP를 위한 강인한 유한 메모리 정책 경사: rfPG 알고리즘의 혁신
Maris F. L. Galesloot 등 연구진이 개발한 rfPG 알고리즘은 숨겨진 모델 POMDP(HM-POMDP)에서 강인하고 일반화된 정책을 생성하는 혁신적인 방법입니다. 최악의 경우 POMDP를 계산하고 이에 대한 정책을 최적화하는 두 가지 기법을 결합하여 기존 방법보다 더욱 강인하고 확장 가능한 정책을 생성합니다.

불확실성이 가득한 세상에서 최적의 의사결정을 내리는 것은 쉽지 않습니다. 특히, 환경의 변화까지 고려해야 한다면 더욱 어려워집니다. 마치 안개 속에서 길을 찾는 것과 같죠. 부분적으로 관찰 가능한 마르코프 의사결정 프로세스(POMDP)는 이러한 불확실성 속의 순차적 의사결정을 모델링하는데 사용되는 강력한 도구입니다. 하지만 POMDP의 최적 정책은 환경의 작은 변화에도 취약할 수 있다는 한계가 존재했습니다.
이 문제를 해결하기 위해 Maris F. L. Galesloot 등 연구진은 혁신적인 알고리즘 rfPG (Robust Finite-Memory Policy Gradients) 를 개발했습니다. rfPG는 숨겨진 모델 POMDP (HM-POMDP)라는 개념에 기반합니다. HM-POMDP는 공유된 행동 및 관찰 공간을 가진 여러 환경 모델(즉, POMDP)의 집합을 포착합니다. 마치 여러 개의 지도 중 어떤 지도가 실제 지형과 일치하는지 모르는 상황과 유사합니다. rfPG의 핵심은 이러한 불확실성 속에서도 꾸준히 좋은 성능을 내는 강인한 정책을 찾는 것입니다.
연구진은 두 가지 기법을 결합하여 이 문제에 접근했습니다. 첫째, 연역적 형식 검증 기법을 사용하여 HM-POMDP 내에서 최악의 경우 POMDP를 계산합니다. 이는 마치 안개 속에서 가장 위험한 길을 미리 파악하는 것과 같습니다. 둘째, 하강 경사 상승(subgradient ascent)을 통해 최악의 경우 POMDP에 대한 후보 정책을 최적화합니다. 이는 가장 위험한 길을 피해 안전하게 목표 지점에 도달할 수 있는 최적의 경로를 찾는 것과 같습니다.
실험 결과는 놀랍습니다. rfPG는 기존의 방법들과 비교하여 더욱 강인하고, 미지의 POMDP에도 잘 일반화되는 정책을 생성했습니다. 더욱이, 10만 개가 넘는 환경으로 구성된 HM-POMDP에도 확장 가능성을 보여주었습니다. 이는 마치 안개가 매우 짙고 복잡한 미로 속에서도 길을 찾을 수 있음을 증명한 것과 같습니다. rfPG 알고리즘은 불확실하고 복잡한 환경에서의 의사결정 문제에 새로운 가능성을 제시하며, 앞으로 자율 주행, 로봇 제어 등 다양한 분야에 혁신적인 영향을 미칠 것으로 기대됩니다.
Reference
[arxiv] \textsc{rfPG}: Robust Finite-Memory Policy Gradients for Hidden-Model POMDPs
Published: (Updated: )
Author: Maris F. L. Galesloot, Roman Andriushchenko, Milan Češka, Sebastian Junges, Nils Jansen
http://arxiv.org/abs/2505.09518v1