UniVLA: 어디서든 행동하는 법을 배우는 로봇의 혁신
중국과학원 자동화연구소 연구팀이 개발한 UniVLA는 잠재 행동 모델을 이용하여 다양한 환경과 로봇 형태에 적용 가능한 혁신적인 로봇 학습 프레임워크입니다. 적은 데이터와 연산으로 OpenVLA를 능가하는 성능을 보이며, 로봇 기술의 확장성과 효율성을 크게 높일 것으로 기대됩니다.

만능 로봇의 꿈, UniVLA가 이룬다
일반적인 로봇은 다양한 환경에서 효과적으로 작동해야 합니다. 하지만 기존 접근 방식은 행동 주석이 달린 데이터에 크게 의존하여 단일 물리적 사양으로 제한되고, 다른 형태와 환경 간의 지식 전이에 어려움을 겪었습니다. 중국과학원 자동화연구소의 연구팀은 이러한 한계를 극복하기 위해 UniVLA라는 혁신적인 프레임워크를 제안했습니다.
UniVLA: 잠재 행동의 힘
UniVLA의 핵심은 잠재 행동 모델을 통해 비디오에서 작업 중심의 행동 표현을 도출하는 데 있습니다. 이를 통해 다양한 로봇 형태와 관점에 걸쳐 방대한 데이터를 활용할 수 있습니다. 연구팀은 작업과 무관한 역학의 영향을 줄이기 위해 언어 지침을 통합하고 DINO 특징 공간 내에 잠재 행동 모델을 구축했습니다. 인터넷 규모의 비디오로 학습된 일반화된 정책은 효율적인 잠재 행동 디코딩을 통해 다양한 로봇에 배포될 수 있습니다.
놀라운 성과: 효율성과 성능의 조화
UniVLA는 여러 조작 및 탐색 벤치마크뿐만 아니라 실제 로봇 배포에서 최첨단 결과를 얻었습니다. OpenVLA보다 훨씬 적은 사전 훈련 연산(1/20 미만)과 하류 데이터(1/10 미만)로 우수한 성능을 달성했습니다. 인간 비디오를 포함한 이종 데이터가 훈련 파이프라인에 통합됨에 따라 성능이 지속적으로 향상되었습니다. 이러한 결과는 UniVLA가 확장 가능하고 효율적인 로봇 정책 학습을 가능하게 할 잠재력을 보여줍니다.
미래를 향한 발걸음: 더욱 발전된 로봇 기술
Qingwen Bu를 비롯한 연구진의 UniVLA는 단순한 기술적 발전을 넘어, 로봇 기술의 미래를 재정의할 가능성을 보여줍니다. 데이터 효율성을 극대화하고 다양한 환경에 적응하는 능력을 향상시킴으로써, 더욱 지능적이고 유연한 로봇 개발의 초석을 마련했습니다. 앞으로 UniVLA의 발전과 응용은 우리 삶에 긍정적인 영향을 미칠 것이 분명합니다. 이는 단순히 로봇 공학의 진보가 아닌, 인간과 기술의 조화로운 공존을 위한 중요한 한 걸음입니다.
핵심 연구진: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
Reference
[arxiv] UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
Published: (Updated: )
Author: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
http://arxiv.org/abs/2505.06111v2