UniVLA: 작업 중심 잠재 행동으로 어디서든 행동하는 법을 배우다
본 기사는 UniVLA라는 새로운 로봇 학습 프레임워크를 소개합니다. UniVLA는 기존 방식의 한계를 극복하고 다양한 환경과 로봇에서 일반화된 정책 학습을 가능하게 하여 최첨단 성능을 달성했습니다. 이는 효율적인 로봇 학습 및 인간-로봇 공존 사회 구현에 중요한 의미를 가집니다.

만능 로봇의 꿈, UniVLA가 현실로?
일반적인 로봇이 다양한 환경에서 효과적으로 작동하려면 어떻게 해야 할까요? 기존의 접근 방식은 대부분 행동 주석이 달린 방대한 데이터에 의존해왔습니다. 하지만 이는 단일 물리적 사양으로 제한되고, 서로 다른 로봇과 환경에서 지식을 전이하는 데 어려움을 겪는다는 한계를 가지고 있습니다.
청원 부 박사를 비롯한 연구팀은 이러한 문제를 해결하기 위해 UniVLA라는 혁신적인 프레임워크를 제안했습니다. UniVLA는 다양한 로봇과 환경에서 작동하는 일반적인 시각-언어-행동(VLA) 정책을 학습하는 새로운 방법입니다. 핵심은 잠재 행동 모델을 이용해 비디오에서 작업 중심의 행동 표현을 도출하는 것입니다. 이를 통해 다양한 로봇과 관점에서 방대한 데이터를 활용할 수 있습니다.
잠재 행동 모델: 데이터의 힘을 극대화하다
UniVLA는 작업과 무관한 역학의 영향을 줄이기 위해 언어 지침을 통합하고 DINO 특징 공간 내에서 잠재 행동 모델을 구축했습니다. 인터넷 규모의 비디오 데이터로 학습된 이 일반적인 정책은 효율적인 잠재 행동 디코딩을 통해 다양한 로봇에 배포될 수 있습니다.
놀라운 성능: 기존 기술을 압도하다
연구 결과, UniVLA는 여러 조작 및 탐색 벤치마크뿐만 아니라 실제 로봇 배포에서도 최첨단 성능을 달성했습니다. OpenVLA보다 훨씬 적은(1/20 미만) 사전 훈련 연산과 1/10 미만의 후속 데이터만으로도 뛰어난 성능을 보였습니다. 더욱 놀라운 점은, 인간 비디오를 포함한 이질적인 데이터를 훈련 파이프라인에 통합함으로써 성능이 지속적으로 향상된다는 것입니다.
미래를 향한 발걸음: 확장 가능하고 효율적인 로봇 학습의 가능성
UniVLA는 확장 가능하고 효율적인 로봇 정책 학습을 가능하게 하는 잠재력을 보여줍니다. 이 연구는 단순한 기술적 발전을 넘어, 다양한 환경에서 자유롭게 작동하는 만능 로봇이라는 꿈에 한 걸음 더 다가가는 중요한 이정표를 세웠습니다. 앞으로 UniVLA를 기반으로 더욱 발전된 로봇 기술이 등장할 것으로 기대됩니다. 인간과 로봇이 공존하는 미래 사회를 향한 혁신적인 여정의 시작을 알리는 순간입니다.
Reference
[arxiv] UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
Published: (Updated: )
Author: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
http://arxiv.org/abs/2505.06111v1