MoLe-VLA: 효율적인 로봇 조작을 위한 혁신적인 비전-언어-행동 모델
본 논문은 효율적인 로봇 조작을 위한 혁신적인 비전-언어-행동 모델인 MoLe-VLA를 제시합니다. 신경과학적 통찰력을 바탕으로 계층 선택적 활성화 기법을 도입하여 계산 비용을 최대 5.6배 절감하면서도 작업 성공률을 8% 향상시켰습니다.

최근 급부상하는 다중 모달 대규모 언어 모델(MLLM)은 복잡한 언어와 시각 데이터를 이해하여 로봇에게 물리적 작업 수행 능력을 부여합니다. 하지만, 현실 세계 적용에는 여전히 높은 계산 비용과 저장 공간 요구사항이라는 큰 장벽이 존재합니다.
Rongyu Zhang 등 연구진은 이 문제 해결을 위해 획기적인 MoLe-VLA(Mixture-of-Layers Vision-Language-Action) 모델을 제안했습니다. MoLe-VLA는 신경과학 분야의 Shallow Brain Hypothesis(SBH) 에서 영감을 받았습니다. SBH는 뇌가 모든 정보를 모든 계층에서 처리하는 것이 아니라, 특정 상황에 필요한 계층만 활성화하여 효율성을 높인다는 가설입니다.
MoLe-VLA는 이러한 개념을 바탕으로 각 LLM 계층을 전문가로 간주하고, Spatial-Temporal Aware Router (STAR) 라는 메커니즘을 통해 로봇의 현재 상태에 따라 필요한 계층만 동적으로 활성화합니다. 이는 마치 뇌가 인지 및 인과 추론에 특화된 신호 경로를 사용하는 것과 유사합니다.
또한, 계층 선택적 활성화로 인해 손실될 수 있는 LLM의 인지 능력을 보완하기 위해 Cognition Self-Knowledge Distillation (CogKD) 기법을 도입했습니다. CogKD는 작업 요구 사항에 대한 이해도를 높이고, 작업 관련 행동 순서 생성을 개선합니다.
RLBench 시뮬레이션과 실제 환경에서의 광범위한 실험 결과, MoLe-VLA는 기존 LLM 대비 최대 5.6배의 계산 비용 절감과 10가지 작업에서 평균 성공률 8% 향상이라는 놀라운 결과를 보여주었습니다. 이는 효율성과 성능을 동시에 개선한 혁신적인 성과입니다.
MoLe-VLA는 단순히 계산 비용을 줄이는 것을 넘어, 인지 과학과 AI 기술의 융합을 통해 더욱 효율적이고 지능적인 로봇 시스템 구축의 가능성을 제시합니다. 향후 연구에서는 더욱 다양한 작업 환경과 복잡한 작업에 대한 MoLe-VLA의 적용성을 확장하는 연구가 기대됩니다.
Reference
[arxiv] MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation
Published: (Updated: )
Author: Rongyu Zhang, Menghang Dong, Yuan Zhang, Liang Heng, Xiaowei Chi, Gaole Dai, Li Du, Yuan Du, Shanghang Zhang
http://arxiv.org/abs/2503.20384v2