로봇의 공간 지각 능력 혁신: RoboRefer의 등장


중국 연구진이 개발한 RoboRefer는 3D 공간 이해와 다단계 추론 능력을 갖춘 혁신적인 로봇 시스템입니다. 대규모 데이터셋 RefSpatial과 강화 학습 기반의 미세 조정을 통해 기존 최고 성능 모델보다 17.4% 향상된 정확도를 달성했습니다. 다양한 로봇 플랫폼에서 실제 환경 적용 가능성을 보여주며 로보틱스 기술 발전에 큰 영향을 미칠 것으로 예상됩니다.

related iamge

중국 연구진이 3차원 공간을 정확하게 이해하고 복잡한 명령을 수행할 수 있는 로봇 시스템 'RoboRefer'를 개발하여 로보틱스 분야에 혁신을 가져왔습니다. Zhou Enshen을 비롯한 11명의 연구자들은 비전-언어 모델을 기반으로 한 공간 참조 기술을 통해 이러한 혁신을 이뤄냈습니다.

복잡한 3D 환경 이해의 한계를 넘어서다

기존의 비전-언어 모델(VLMs)은 복잡한 3D 장면을 정확하게 이해하고 상호작용 지점을 추론하는 데 어려움을 겪었습니다. RoboRefer는 이러한 한계를 극복하기 위해 심층 인코더를 통합하여 정밀한 공간 이해를 달성했습니다. 여기서 주목할 점은 지도 학습 미세 조정(SFT) 을 통해 심층 인코더가 효율적으로 학습되었다는 것입니다. 이를 통해 RoboRefer는 단순한 명령어뿐 아니라 복잡한 다단계 공간 추론도 가능하게 되었습니다.

2천만 개 질의응답 쌍의 대규모 데이터셋: RefSpatial

RoboRefer의 뛰어난 성능은 방대한 데이터 학습의 결과입니다. 연구팀은 2천만 개의 질의응답 쌍을 포함하는 대규모 데이터셋 RefSpatial을 새롭게 구축했습니다. 이는 기존 데이터셋보다 2배나 큰 규모이며, 31가지의 공간 관계를 포함하여 다양하고 복잡한 공간적 상황을 다룹니다. 최대 5단계까지의 복잡한 추론 과정도 지원하도록 설계되어 RoboRefer의 강력한 추론 능력을 뒷받침합니다. 또한, 다단계 추론 평가를 위한 벤치마크 RefSpatial-Bench도 함께 공개하여 공정한 성능 비교를 가능하게 했습니다.

강화 학습(RFT) 기반의 정밀한 공간 추론: 압도적인 성능

RoboRefer는 강화 학습(Reinforcement Fine-tuning, RFT) 을 통해 다단계 공간 추론 능력을 더욱 강화했습니다. 특히, 공간 참조 작업에 맞춤화된 지표 민감형 프로세스 보상 함수를 사용하여 학습 효율성을 높였습니다. 그 결과, RoboRefer는 RefSpatial-Bench에서 기존 최고 성능 모델인 Gemini-2.5-Pro보다 평균 정확도가 17.4%나 높았습니다. 이는 SFT를 통해 89.6%의 성공률을 달성한 공간 이해 능력에 RFT를 통해 추론 능력까지 더해진 결과입니다.

다양한 로봇 환경에서의 실제 적용 가능성

RoboRefer는 UR5 로봇 암과 G1 휴머노이드 로봇 등 다양한 로봇에 통합되어 실제 복잡한 환경에서 장기간 동적 작업을 수행할 수 있습니다. 이러한 뛰어난 적응력은 RoboRefer의 실용성을 더욱 높여줍니다.

결론: 로보틱스의 미래를 엿보다

RoboRefer는 3D 공간 이해와 다단계 추론 능력을 결합하여 로봇의 지능 수준을 한 단계 끌어올렸습니다. 이는 단순한 기술적 진보를 넘어, 로봇이 더욱 복잡하고 다양한 작업을 수행할 수 있는 가능성을 열어주는 중요한 이정표가 될 것입니다. 앞으로 RoboRefer가 다양한 로봇 응용 분야에서 어떻게 활용될지, 그리고 로보틱스 기술 발전에 어떤 영향을 미칠지 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

Published:  (Updated: )

Author: Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang

http://arxiv.org/abs/2506.04308v1