PRISM: 시각 기반 보상 통합으로 현실-시뮬레이션-현실 전이 달성
Sun 등 연구진의 PRISM 논문은 실제-시뮬레이션-실제 파이프라인과 시각 언어 모델 기반의 투영 보상 모델을 통해 소수의 시연만으로도 실제 환경에서 강력하고 안정적인 로봇 제어 정책을 학습하는 혁신적인 방법을 제시합니다. 이는 로봇 기술 발전에 크게 기여할 것으로 기대되지만, 향후 연구를 통해 VLM 의존성 및 시뮬레이션 환경의 현실성 개선이 필요합니다.

소수의 시연만으로 현실 세계 로봇 제어의 혁신을 이끌다: PRISM
로봇이 실제 환경에서 다양한 상황에 유연하게 대처하는 것은 오랜 숙제였습니다. 기존의 모방 학습은 제한된 데이터로는 일반화에 어려움을 겪고, 강화 학습은 실제 환경에서 직접 학습시키기에는 위험하고 비효율적이었습니다. Sun 등의 연구진이 발표한 PRISM(Projection-based Reward Integration for Scene-Aware Real-to-Sim-to-Real Transfer with Few Demonstrations) 논문은 이러한 어려움을 극복할 혁신적인 해결책을 제시합니다.
PRISM의 핵심은 실제-시뮬레이션-실제(Real-to-Sim-to-Real) 파이프라인입니다. 먼저, 전문가의 시연 영상에서 장면의 물체들을 인식하고, 기존 3D 모델 라이브러리에서 해당 모델들을 가져와 시뮬레이션 환경을 구축합니다. 단순히 시뮬레이션 환경을 만드는 것을 넘어, 연구진은 시각 언어 모델(VLM) 을 이용한 투영 기반 보상 모델을 개발했습니다. VLM은 사람이 직접 지정한 물체 간의 관계를 이용하여 강화 학습 에이전트의 행동을 보상합니다. 이렇게 학습된 정책은 다시 전문가 시연으로 미세 조정되어, 실제 환경에서의 안정적인 성능을 보장합니다.
이는 마치, 숙련된 장인이 직접 시범을 보이는 것을 보고, AI가 그 기술을 시뮬레이션 환경에서 배우고, 실제 작업에 적용하는 과정과 유사합니다. 단순히 모방하는 것을 넘어, AI 스스로 상황을 이해하고, 최적의 행동을 선택하도록 학습시키는 것입니다.
PRISM은 소수의 시연만으로도 로봇의 초기 위치나 물체의 배치 변화에 강인한 제어 정책을 학습할 수 있도록 합니다. 이는 실제 로봇 제어 분야에 획기적인 발전을 가져올 가능성이 있으며, 보다 안전하고 효율적인 로봇 시스템 구축에 기여할 것으로 기대됩니다. 하지만, VLM의 성능에 대한 의존성이나 시뮬레이션 환경의 현실성과 같은 향후 연구 과제도 존재합니다. PRISM은 로봇 제어 분야의 새로운 장을 열었지만, 더욱 완벽한 시스템으로 발전시키기 위한 지속적인 연구 노력이 필요합니다.
핵심 내용:
- 실제-시뮬레이션-실제 파이프라인을 통한 강화 학습 기반 로봇 제어 정책 개발
- 시각 언어 모델(VLM)을 활용한 투영 기반 보상 모델 도입
- 소수의 시연으로 로봇 초기 위치 및 물체 자세 변화에 강력한 정책 학습
- 전문가 시연을 통한 시뮬레이션 환경 구축 및 정책 미세 조정
Reference
[arxiv] PRISM: Projection-based Reward Integration for Scene-Aware Real-to-Sim-to-Real Transfer with Few Demonstrations
Published: (Updated: )
Author: Haowen Sun, Han Wang, Chengzhong Ma, Shaolong Zhang, Jiawei Ye, Xingyu Chen, Xuguang Lan
http://arxiv.org/abs/2504.20520v1