오프라인 로봇 월드 모델: 시뮬레이터 없이 로봇 정책 학습하기
Chenhao Li, Andreas Krause, Marco Hutter가 개발한 오프라인 로봇 월드 모델(RWM-O)은 에피스테믹 불확실성 추정을 통해 오프라인 강화학습의 한계를 극복하고, 물리적 시뮬레이터 없이 실제 데이터만으로 안전하고 효율적인 로봇 정책 학습을 가능하게 하는 혁신적인 기술입니다.

강화학습(Reinforcement Learning, RL)은 로봇 제어 분야에서 놀라운 성과를 보여주고 있지만, 높은 샘플 복잡도, 안전 문제, 그리고 시뮬레이션과 현실 간의 차이(sim-to-real gap) 때문에 여전히 큰 과제에 직면해 있습니다. 오프라인 강화학습(Offline RL)은 위험한 실제 환경 탐색 없이 미리 수집된 데이터로 학습하는 방식이지만, 분포 이동(distributional shift) 문제로 인해 정책의 일반화 능력이 제한됩니다.
이러한 문제를 해결하기 위해, 모델 기반 강화학습(Model-Based RL, MBRL)이 등장했습니다. MBRL은 예측 모델을 활용하여 가상 시뮬레이션을 수행하지만, 기존의 MBRL 접근 방식들은 강력한 불확실성 추정이 부족하여 오프라인 환경에서 오류가 누적되는 문제가 있었습니다.
Chenhao Li, Andreas Krause, Marco Hutter 등의 연구진은 이러한 한계를 극복하기 위해 오프라인 로봇 월드 모델(Offline Robotic World Model, RWM-O) 을 제안했습니다. RWM-O는 물리적 시뮬레이터 없이도 에피스테믹 불확실성(Epistemic Uncertainty, 모델의 지식 부족으로 인한 불확실성)을 명시적으로 추정하여 정책 학습을 개선합니다. RWM-O는 불확실성 추정치를 정책 최적화에 통합하여 신뢰할 수 없는 전이(transition)에 대한 페널티를 부여함으로써 모델 오류로 인한 과적합을 줄이고 안정성을 높입니다.
실험 결과, RWM-O는 일반화 능력과 안전성을 향상시켜 실제 데이터만으로 로봇 정책 학습을 가능하게 했습니다. 이는 로봇 제어 분야에서 확장 가능하고 데이터 효율적인 RL의 발전을 위한 중요한 진전입니다. RWM-O는 단순히 데이터를 학습하는 것을 넘어, 모델의 불확실성을 정확하게 파악하고 이를 정책 결정에 반영함으로써 더욱 안전하고 신뢰할 수 있는 로봇 시스템 구축에 기여할 것으로 기대됩니다. 이는 향후 로봇 공학의 발전에 중요한 이정표가 될 것입니다.
핵심: RWM-O는 에피스테믹 불확실성을 활용하여 오프라인 환경에서의 모델 오류를 최소화하고, 실제 데이터만으로 안전하고 효율적인 로봇 정책 학습을 가능하게 했습니다. 이는 시뮬레이터에 대한 의존성을 줄이고 실제 세계 적용 가능성을 높이는 혁신적인 접근 방식입니다.
Reference
[arxiv] Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator
Published: (Updated: )
Author: Chenhao Li, Andreas Krause, Marco Hutter
http://arxiv.org/abs/2504.16680v1