로봇에게 그림으로 명령하는 시대가 온다: 새로운 로봇-인간 상호작용 패러다임, RoVI

본 기사는 손그림 기호를 이용한 새로운 로봇 제어 방식인 RoVI와 이를 위한 VIEW 파이프라인에 대한 연구 결과를 소개합니다. 실제 환경에서 높은 성공률을 기록하며 로봇-인간 상호작용의 새로운 가능성을 제시합니다.

최근 자연어는 로봇과의 상호작용을 위한 주요 매개체였습니다. 하지만 자연어는 본질적으로 공간적 정밀도가 부족하여 모호성과 장황함 등 로봇 작업 정의에 어려움을 야기합니다. 더욱이 도서관이나 병원과 같이 조용해야 하는 공공장소에서는 로봇과의 음성 대화가 부적절할 수 있습니다.

이러한 한계를 극복하기 위해, Yanbang Li를 비롯한 연구진은 객체 중심의 손그림 기호 표현을 통해 로봇 작업을 안내하는 새로운 패러다임인 RoVI (Robotic Visual Instruction) 를 소개했습니다. RoVI는 화살표, 원, 색상 및 숫자를 사용하여 3D 로봇 조작을 지시함으로써 공간-시간 정보를 사람이 이해할 수 있는 시각적 지시 사항으로 효과적으로 인코딩합니다.

RoVI를 더 잘 이해하고 RoVI를 기반으로 정확한 동작을 생성하도록 하기 위해 연구진은 Visual Instruction Embodied Workflow (VIEW) 라는 파이프라인을 개발했습니다. 이 방법은 Vision-Language Model (VLMs)을 활용하여 RoVI 입력을 해석하고, 주요점 추출을 통해 2D 픽셀 공간에서 공간 및 시간적 제약 조건을 디코딩한 다음, 실행 가능한 3D 동작 시퀀스로 변환합니다. 또한, 15,000개의 인스턴스로 구성된 특수 데이터셋을 만들어 소형 VLM을 미세 조정하여 에지 배포를 가능하게 함으로써 RoVI 기능을 효과적으로 학습할 수 있도록 했습니다.

연구진은 실제 및 시뮬레이션 환경에서 11가지 새로운 작업에 대해 엄격한 검증을 수행하여 RoVI의 일반화 능력을 입증했습니다. 특히 VIEW는 다단계 동작, 방해 요소 및 궤적 추종 요구 사항이 있는 보이지 않는 작업이 포함된 실제 시나리오에서 87.5%의 성공률을 달성했습니다. 이는 로봇 제어의 새로운 지평을 열 것으로 기대됩니다. 자세한 내용은 프로젝트 웹사이트 (https://robotic-visual-instruction.github.io/)를 참조하세요.

🎉 이 연구는 로봇과의 상호작용 방식에 혁신을 가져올 뿐만 아니라, 소통의 새로운 가능성을 제시하는 획기적인 결과입니다. 앞으로 RoVI 기술은 다양한 산업 분야와 일상생활에 적용되어 로봇의 활용도를 크게 높일 것으로 예상됩니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Robotic Visual Instruction

Published: (Updated: )

Author: Yanbang Li, Ziyang Gong, Haoyang Li, Xiaoqi Huang, Haolan Kang, Guangping Bai, Xianzheng Ma

http://arxiv.org/abs/2505.00693v2