혁신적인 로봇 조작 모델 MoLe-VLA: 층별 활성화 제어로 효율성과 성능 향상을 동시에!
중국과학원 자동화연구소 연구진이 개발한 MoLe-VLA는 신경과학 원리를 활용하여 LLM의 층별 활성화를 제어함으로써 로봇 조작의 효율성과 성능을 크게 향상시킨 혁신적인 모델입니다. RLBench 시뮬레이션과 실제 환경 실험에서 효율성 최대 5.6배 증가, 성공률 8% 향상을 달성했습니다.

로봇 조작의 혁명을 이끌 MoLe-VLA: 효율성과 성능, 두 마리 토끼를 잡다!
최근 급격한 발전을 거듭하고 있는 다중 모달 대규모 언어 모델(MLLM)은 복잡한 언어 및 시각 데이터를 이해하여 로봇이 다양한 작업을 수행할 수 있도록 합니다. 하지만 현실 세계 적용에는 여전히 큰 계산 비용과 저장 공간이라는 난관이 존재합니다.
중국과학원 자동화연구소(Institute of Automation, Chinese Academy of Sciences) 연구진은 이러한 문제를 해결하기 위해 획기적인 모델인 MoLe-VLA (Mixture-of-Layers Vision-Language-Action) 를 개발했습니다. Rongyu Zhang 등 10명의 연구진이 발표한 논문에 따르면, MoLe-VLA는 **신경과학의 '얕은 뇌 가설(Shallow Brain Hypothesis, SBH)'**과 전문가 혼합(Mixture of Experts) 개념을 LLM에 접목한 혁신적인 모델입니다.
MoLe-VLA의 핵심: 지능적인 층별 활성화 제어
MoLe-VLA는 각 LLM 층을 전문가로 간주하고, Spatial-Temporal Aware Router (STAR) 라는 메커니즘을 통해 로봇의 현재 상태에 따라 필요한 층만 활성화시킵니다. 마치 인간의 뇌가 특정 작업에 필요한 신경 경로만 활성화하는 것과 유사한 방식입니다. 이는 불필요한 계산을 줄여 효율성을 극대화하는 핵심 전략입니다.
하지만, 일부 층의 비활성화는 LLM의 인지 능력 저하를 초래할 수 있습니다. 이를 해결하기 위해 연구진은 Cognition Self-Knowledge Distillation (CogKD) 기법을 도입했습니다. CogKD는 작업 요구사항에 대한 이해도를 높이고, 효율적인 작업 수행을 위한 행동 순서 생성을 향상시킵니다.
놀라운 성능 향상: 효율성과 정확도의 완벽한 조화
RLBench 시뮬레이션과 실제 환경에서 진행된 실험 결과는 MoLe-VLA의 뛰어난 성능을 입증합니다. MoLe-VLA는 기존 LLM 대비 최대 5.6배의 계산 비용 절감을 달성하면서도, 10가지 작업에서 평균 성공률을 8% 향상시켰습니다.
결론: 미래 로봇 기술의 새로운 지평을 열다
MoLe-VLA는 단순한 효율성 향상을 넘어, 실제 로봇 애플리케이션에 대한 획기적인 발전을 제시합니다. 신경과학적 원리를 활용한 지능적인 층별 활성화 제어와 CogKD 기법은 향후 로봇 기술 발전에 중요한 영향을 미칠 것으로 기대됩니다. 더욱 효율적이고 지능적인 로봇 시스템 개발을 위한 새로운 가능성을 제시하는 MoLe-VLA의 등장은, 미래 로봇 기술의 새로운 지평을 여는 중요한 이정표가 될 것입니다.
Reference
[arxiv] MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation
Published: (Updated: )
Author: Rongyu Zhang, Menghang Dong, Yuan Zhang, Liang Heng, Xiaowei Chi, Gaole Dai, Li Du, Dan Wang, Yuan Du, Shanghang Zhang
http://arxiv.org/abs/2503.20384v1