안전한 오프라인 강화학습을 위한 새로운 지평: FASP 프레임워크
Tao 등 연구진이 제안한 FASP 프레임워크는 Hamilton-Jacobi 도달 가능성 분석과 CVAE 기반 비관적 추정을 통해 오프라인 안전 강화학습의 장기 안전성과 샘플 효율성을 크게 향상시켰습니다. 다양한 실험에서 최첨단 알고리즘을 능가하는 성능을 보이며 안전이 중요한 실제 환경에서의 강화학습 적용에 새로운 가능성을 제시했습니다.

로봇 공학과 같이 안전이 중요한 실제 환경에서 강화학습(Reinforcement Learning, RL)을 적용하는 것은 매우 중요한 과제입니다. 기존의 오프라인 안전 강화학습(Offline Safe RL, OSRL)은 사전에 수집된 데이터셋으로부터 안전 제약 조건을 만족하는 정책을 도출하지만, 대부분 단기 안전성에만 초점을 맞춰 장기적인 안전성을 고려하지 못하는 한계가 있었습니다. 이로 인해 실제 배포 시 안전 제약 조건을 위반하거나 지속적인 안전을 보장하지 못할 가능성이 높았습니다.
Tao 등 연구진은 이러한 문제를 해결하기 위해 Feasibility-Aware offline Safe Reinforcement Learning with CVAE-based Pessimism (FASP) 이라는 혁신적인 프레임워크를 제안했습니다. FASP는 Hamilton-Jacobi (H-J) 도달 가능성 분석을 이용하여 신뢰할 수 있는 안전성 레이블을 생성합니다. 이 레이블은 조건부 변분 오토인코더(Conditional Variational Autoencoder, CVAE)와 안전 분류기 훈련을 위한 감독 신호 역할을 합니다. 이를 통해 높은 샘플 효율성을 확보하고 엄격한 장기 안전성 보장을 제공합니다.
또한, FASP는 비관적 추정(Pessimistic Estimation) 방법을 사용하여 보상과 비용의 Q-값을 추정합니다. 이는 데이터셋에 없는 상태나 행동(Out-of-Distribution, OOD)으로 인한 외삽 오류를 완화하고, 위험한 행동을 사전에 방지하기 위해 불안전한 행동에 대한 페널티를 부여합니다. 더 나아가, 연구진은 이 비관적 추정의 타당성을 이론적으로 증명했습니다. DSRL 벤치마크에 대한 광범위한 실험 결과, FASP 알고리즘은 여러 실험 과제에서 경쟁력 있는 성능을 달성했으며, 특히 안전성 측면에서 최첨단 알고리즘을 능가하는 것으로 나타났습니다. 이는 장기적인 안전성과 안정성을 동시에 보장하는 오프라인 강화학습의 새로운 가능성을 열어주는 중요한 발견입니다.
이는 단순히 새로운 알고리즘의 제시를 넘어, 안전이 중요한 실제 환경에 RL을 적용하는 데 있어 필수적인 요소인 장기적인 안전성 확보에 대한 중요한 돌파구를 마련했다는 점에서 큰 의미를 가집니다. 향후 FASP의 발전과 다양한 분야로의 응용이 기대됩니다.
Reference
[arxiv] Feasibility-Aware Pessimistic Estimation: Toward Long-Horizon Safety in Offline RL
Published: (Updated: )
Author: Zhikun Tao, Gang Xiong, He Fang, Zhen Shen, Yunjun Han, Qing-Shan Jia
http://arxiv.org/abs/2505.08179v1