로봇 조작의 혁신: 3D 멀티모달 표현 학습 모델 EmbodiedMAE 등장


동지빈 등 연구팀이 개발한 EmbodiedMAE는 3D 멀티모달 표현 학습 모델로, 기존 모델들의 한계를 극복하고 시뮬레이션 및 실제 로봇 조작 작업에서 우수한 성능을 보입니다. 특히 정밀한 테이블탑 조작에 효과적이며, 로봇 기술 발전에 크게 기여할 것으로 기대됩니다.

related iamge

동지빈, 니페이, 원이부, 리인촨, 하오젠예 연구팀이 로봇 조작을 위한 획기적인 3D 멀티모달 표현 학습 모델인 EmbodiedMAE를 발표했습니다. 기존 로봇 조작 모델들은 훈련 데이터셋과 실제 로봇 조작 작업 간의 도메인 갭 문제와 3D 정보 효과적 활용의 어려움에 직면해왔습니다.

하지만 EmbodiedMAE는 이러한 한계를 극복하기 위해 고품질의 깊이 맵과 점군 데이터로 DROID 데이터셋을 강화한 DROID-3D를 구축했습니다. 이를 기반으로 RGB, 깊이, 점군 모달리티를 동시에 학습하는 멀티모달 마스크드 오토인코더를 개발했습니다. 확률적 마스킹과 모달리티 간 융합을 통해 효율적인 표현 학습을 달성한 것이 특징입니다.

실험 결과, EmbodiedMAE는 70가지 시뮬레이션 작업과 두 가지 로봇 플랫폼에서 20가지 실제 로봇 조작 작업에서 최첨단 비전 기반 모델(VFMs) 을 능가하는 성능을 보였습니다. 모델 크기 증가에 따른 성능 향상(scaling behavior)도 뛰어나며, 3D 입력을 활용한 효과적인 정책 학습을 가능하게 합니다. 특히, 공간적 인지가 중요한 정밀한 테이블탑 조작에서 높은 성능을 보여주는 등, EmbodiedMAE는 실제 세계 로봇 조작 분야에 중요한 발전을 가져올 것으로 기대됩니다.

이 연구는 EmbodiedMAE가 신뢰할 수 있는 통합된 3D 멀티모달 VFM임을 증명하며, 특히 공간 지각이 중요한 정밀한 테이블탑 조작 설정에서 효과적임을 보여줍니다. 향후 EmbodiedMAE는 더욱 다양한 로봇 조작 작업에 적용되어 로봇 기술 발전에 크게 기여할 것으로 예상됩니다. 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation

Published:  (Updated: )

Author: Zibin Dong, Fei Ni, Yifu Yuan, Yinchuan Li, Jianye Hao

http://arxiv.org/abs/2505.10105v1