RoBridge: 인지와 실행을 연결하는 계층적 아키텍처로 로봇 조작의 새 지평을 열다


RoBridge는 대규모 사전 훈련된 시각-언어 모델(VLM) 기반의 고차원 인지 계획자(HCP), 불변 조작 가능 표현(IOR), 강화 학습 기반의 일반화된 구현 에이전트(GEA)로 구성된 계층적 아키텍처로, 새로운 작업 성공률 75%, 시뮬레이션-실제 환경 전이 성공률 평균 83%를 달성하며 로봇 조작의 새로운 패러다임을 제시합니다.

related iamge

로봇 조작의 난제, RoBridge가 풀다!

다양한 작업을 수행하는 개방형 환경에서 로봇을 작동하는 것은 로봇 공학의 핵심 연구 분야입니다. 최근 자연어 처리와 대규모 다중 모달 모델의 발전으로 로봇의 복잡한 명령 이해 능력이 향상되었지만, 여전히 개방형 환경에서 절차적 기술 딜레마선언적 기술 딜레마에 직면해 있습니다. 기존 방법들은 종종 인지 능력과 실행 능력 사이에서 타협을 해야 했습니다.

중국과학원 자동화연구소(IA CAS) 의 연구진이 개발한 RoBridge는 이러한 문제에 대한 획기적인 해결책을 제시합니다. RoBridge는 계층적 지능 아키텍처로, 고차원 인지 계획자(HCP), 불변 조작 가능 표현(IOR), 그리고 일반화된 구현 에이전트(GEA)로 구성됩니다.

RoBridge의 핵심 구성 요소:

  • 고차원 인지 계획자(HCP): 대규모 사전 훈련된 시각-언어 모델(VLM)을 기반으로 설계되어 복잡한 명령을 이해하고 계획을 수립합니다. 이는 로봇에게 선언적 지식(what)을 제공합니다.
  • 불변 조작 가능 표현(IOR): HCP와 GEA 사이의 다리 역할을 합니다. 추상적인 계획을 로봇이 이해하고 실행할 수 있는 구체적인 조작 명령으로 변환합니다. 이는 인지와 실행 사이의 간극을 메우는 핵심 요소입니다.
  • 일반화된 구현 에이전트(GEA): 강화 학습을 통해 훈련되며, IOR로부터 받은 명령을 실제로 수행합니다. 이는 로봇에게 절차적 지식(how)을 제공하고, 다양한 상황에 적응할 수 있는 유연성을 부여합니다.

RoBridge는 VLM의 선언적 기술과 강화 학습의 절차적 기술을 결합하여 새로운 수준의 로봇 조작 성능을 달성했습니다. **새로운 작업에 대한 성공률은 75%, 시뮬레이션 환경에서 실제 환경으로의 전이(sim-to-real) 성공률은 작업당 5개의 실제 데이터 샘플만 사용하여 평균 83%**에 달합니다. 이러한 놀라운 결과는 RoBridge의 혁신적인 아키텍처와 효율적인 알고리즘의 성과를 보여줍니다.

미래를 위한 발걸음

RoBridge는 인지 추론과 물리적 실행을 로봇 시스템에 통합하는 중요한 진전을 의미합니다. 이 연구는 일반적인 로봇 조작을 위한 새로운 패러다임을 제시하며, 더욱 지능적이고 적응력 있는 로봇 시스템 개발의 가능성을 열어줍니다. 앞으로 RoBridge를 기반으로 더욱 복잡하고 다양한 작업을 수행할 수 있는 로봇 시스템의 개발이 기대됩니다. 이는 인간-로봇 상호작용의 새로운 장을 열고, 다양한 산업 분야에서 로봇의 활용 범위를 획기적으로 확장할 것입니다.🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

Published:  (Updated: )

Author: Kaidong Zhang, Rongtao Xu, Pengzhen Ren, Junfan Lin, Hefeng Wu, Liang Lin, Xiaodan Liang

http://arxiv.org/abs/2505.01709v2