X-Sim: 실제-시뮬레이션-실제 학습을 통한 로봇 조작의 혁신
코넬 대학교 연구팀의 X-Sim 프레임워크는 인간 동작을 로봇 제어에 적용하는 새로운 방법을 제시하며, 실제-시뮬레이션-실제 학습, 객체 중심 보상, 온라인 도메인 적응 기법을 통해 기존 방식보다 높은 효율성과 일반화 능력을 달성했습니다.

인간의 동작을 로봇에 효과적으로 전달하는 것은 로봇 학습 분야의 오랜 과제였습니다. 기존의 모방 학습 기법들은 인간 동작에 대한 정확한 레이블이 필요했고, 서로 다른 형태의 로봇과 인간 동작 간의 매핑은 어려움을 겪어왔습니다. 하지만 코넬 대학교 연구팀이 개발한 X-Sim 프레임워크는 이러한 어려움을 극복하는 획기적인 해결책을 제시합니다.
X-Sim은 실제 영상 데이터(Real) 와 시뮬레이션 환경(Sim) 을 결합하는 '실제-시뮬레이션-실제(Real-to-Sim-to-Real)' 학습 방식을 채택합니다. 핵심은 인간의 동작 자체가 아닌, 물체의 움직임에 초점을 맞춘 것입니다. RGBD 영상에서 추출한 물체의 움직임을 정확하게 시뮬레이션으로 재현하고, 이를 기반으로 객체 중심 보상을 정의합니다. 이 보상을 이용하여 강화 학습 기반의 로봇 제어 정책을 시뮬레이션 환경에서 학습합니다. 단순히 인간의 동작을 따라하는 것이 아니라, 물체 조작이라는 목표 달성을 위한 최적의 정책을 찾는 것이죠.
더 나아가, X-Sim은 학습된 정책을 이미지 조건부 확산 정책으로 변환하여 다양한 시점과 조명 조건에서도 효과적으로 동작할 수 있도록 합니다. 마지막으로, 실제 환경과 시뮬레이션 환경 간의 차이를 온라인 도메인 적응 기법을 통해 해결하여 실제 로봇에도 정책을 성공적으로 적용합니다. 놀라운 점은, 이 모든 과정이 로봇 원격 조작 데이터 없이 이루어진다는 것입니다.
5가지 조작 과제와 2가지 환경에서의 실험 결과는 X-Sim의 우수성을 보여줍니다. 기존의 손 추적 기반 방법이나 단순 시뮬레이션-실제 전이 방법에 비해 평균 30% 향상된 작업 성공률을 달성했고, 기존 모방 학습 방식에 비해 데이터 수집 시간을 10배 단축하면서 동등한 성능을 보였습니다. 게다가 새로운 카메라 시점이나 테스트 시간의 변화에도 뛰어난 일반화 능력을 보여주었습니다. 자세한 내용과 영상은 https://portal-cornell.github.io/X-Sim/에서 확인할 수 있습니다.
결론적으로, X-Sim은 효율적인 데이터 활용과 강력한 일반화 능력을 바탕으로 로봇 조작 분야에 새로운 지평을 열었습니다. 물체 중심의 강화 학습 접근 방식과 실제-시뮬레이션-실제 학습 파이프라인은 향후 로봇 학습 연구의 중요한 발전 방향을 제시합니다. 이 연구는 Prithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury 등 여러 연구자의 공동 연구 결과입니다.
Reference
[arxiv] X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real
Published: (Updated: )
Author: Prithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury
http://arxiv.org/abs/2505.07096v1