X-Sim: 현실-시뮬레이션-현실 학습을 통한 로봇 조작의 혁신
Cornell 대학교 연구진이 개발한 X-Sim은 실제-시뮬레이션-실제 프레임워크를 통해 인간 동작 영상을 활용한 로봇 조작 정책 학습의 새로운 기준을 제시합니다. 로봇 텔레오퍼레이션 데이터 없이도 높은 성능과 일반화 성능을 달성하여 로봇의 실용화에 크게 기여할 것으로 기대됩니다.

인간의 동작 영상은 로봇 조작 정책을 학습시키는 데 있어 풍부한 데이터 소스가 될 수 있지만, 기존 모방 학습 알고리즘에는 필요한 동작 라벨이 부족하다는 한계가 있었습니다. 인간의 움직임을 로봇 동작으로 매핑하려는 기존의 다양한 시도에도 불구하고, 실제 로봇과 인간의 신체적 차이로 인해 성능이 저하되는 문제가 빈번하게 발생했습니다.
Cornell 대학교 연구진이 개발한 X-Sim은 이러한 문제를 해결하기 위해 실제-시뮬레이션-실제(real-to-sim-to-real) 프레임워크를 제시합니다. X-Sim은 RGBD 인간 동작 영상으로부터 사실적인 시뮬레이션 환경을 재구성하고, 객체의 움직임을 추적하여 객체 중심의 보상을 정의합니다. 이 보상을 이용하여 시뮬레이션 환경에서 강화 학습(RL) 정책을 학습하고, 다양한 시점과 조명 조건에서 렌더링된 합성 롤아웃을 사용하여 이미지 조건부 확산 정책으로 증류합니다.
실제 환경으로의 전이를 위해 X-Sim은 배포 중에 실제 관측과 시뮬레이션 관측을 정렬하는 온라인 도메인 적응 기술을 도입합니다. 특히, X-Sim은 로봇 텔레오퍼레이션 데이터를 전혀 필요로 하지 않습니다.
2개의 환경에서 5가지 조작 작업에 대한 평가 결과, X-Sim은 다음과 같은 놀라운 성과를 보였습니다.
- 기존 손 추적 및 시뮬레이션-실제 기준 모델에 비해 작업 진행률을 평균 30% 향상
- 데이터 수집 시간을 10배 단축하면서 동작 복제(Behavior Cloning) 수준의 성능 달성
- 새로운 카메라 시점 및 테스트 시간 변경에 대한 일반화 성능 우수
X-Sim은 단순한 기술적 발전을 넘어, 로봇 조작 분야에 새로운 가능성을 제시합니다. 로봇 텔레오퍼레이션 데이터에 대한 의존도를 낮추고, 더욱 효율적이고 일반화된 로봇 학습을 가능하게 함으로써, 로봇의 실용화에 한 발 더 다가서게 되었습니다. 자세한 내용은 https://portal-cornell.github.io/X-Sim/ 에서 확인할 수 있습니다.
Reference
[arxiv] X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real
Published: (Updated: )
Author: Prithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury
http://arxiv.org/abs/2505.07096v2