RoBridge: 인지와 실행을 연결하는 계층적 아키텍처 - 일반적인 로봇 조작의 새로운 지평


RoBridge는 대규모 VLM을 기반으로 인지와 실행을 효과적으로 연결하는 계층적 아키텍처로, 제한된 실제 데이터만으로도 높은 성공률을 달성하여 일반적인 로봇 조작에 대한 새로운 패러다임을 제시합니다.

related iamge

서론: 다양한 작업이 가능한 개방형 환경에서 로봇을 작동하는 것은 로봇 공학 연구 및 응용 분야의 핵심 과제입니다. 최근 자연어 처리 및 대규모 다중 모드 모델의 발전으로 로봇의 복잡한 지시 이해 능력이 향상되었지만, 개방형 환경에서 로봇 조작은 여전히 절차적 기술(procedural skill) 및 선언적 기술(declarative skill) 딜레마에 직면해 있습니다. 기존 방법들은 종종 인지 및 실행 능력 간의 타협을 강요했습니다.

RoBridge의 등장: 이러한 과제를 해결하기 위해 Zhang 등(2025)은 RoBridge라는 계층적 지능형 아키텍처를 제안합니다. RoBridge는 대규모 사전 훈련된 비전-언어 모델(VLM) 기반의 고급 인지 계획자(HCP), 기호적 다리 역할을 하는 불변 조작 가능 표현(IOR), 그리고 일반화된 구현 에이전트(GEA)로 구성됩니다. RoBridge는 VLM의 선언적 기술을 유지하면서 강화 학습의 절차적 기술을 활용하여 인지와 실행 간의 격차를 효과적으로 해소합니다.

놀라운 성능: RoBridge는 기존 기준 모델에 비해 괄목할 만한 성능 향상을 보여줍니다. 새로운 작업에서 75%의 성공률을 달성했으며, 작업당 실제 세계 데이터 5개만 사용하여 시뮬레이션-실제 일반화에서 평균 83%의 성공률을 기록했습니다. 이는 제한된 실제 데이터만으로도 뛰어난 성능을 발휘할 수 있음을 의미합니다.

결론: RoBridge는 로봇 시스템에서 인지 추론과 물리적 실행을 통합하는 데 중요한 진전을 보여주는 연구입니다. 이는 일반적인 로봇 조작을 위한 새로운 패러다임을 제시하며, 향후 로봇 기술 발전에 큰 영향을 미칠 것으로 기대됩니다. RoBridge의 성공은 단순히 기술적 발전을 넘어, 인간과 로봇의 협업 및 상호작용에 대한 새로운 가능성을 열어줄 것입니다. 더욱 개선된 로봇 기술은 미래 산업 및 사회 전반에 걸쳐 혁신적인 변화를 가져올 수 있을 것입니다.

참고: 본 기사는 Zhang, K., Xu, R., Ren, P., Lin, J., Wu, H., Lin, L., & Liang, X. (2025). RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation. 를 바탕으로 작성되었습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

Published:  (Updated: )

Author: Kaidong Zhang, Rongtao Xu, Pengzhen Ren, Junfan Lin, Hefeng Wu, Liang Lin, Xiaodan Liang

http://arxiv.org/abs/2505.01709v1