혁신적인 소형 비전 언어 액션 모델 NORA 등장!
소형 VLA 모델 NORA는 뛰어난 성능과 효율성으로 실시간 로봇 자율주행 기술에 혁신을 가져왔습니다. 970,000개의 실제 로봇 데모 데이터를 활용한 학습과 FAST+ 토크나이저를 통해 기존 대규모 모델의 한계를 극복했습니다.

실시간 로봇 자율주행의 꿈을 현실로: 소형 VLA 모델 NORA
최근, 인공지능 분야에서 비전-언어-액션(VLA) 모델이 주목받고 있습니다. 이 모델들은 이미지를 이해하고, 자연어 명령을 받아들여, 실제 행동을 수행하는 능력을 보여주며 제로샷 학습에서 놀라운 성과를 보였습니다. 하지만 기존 VLA 모델들은 7B 파라미터를 넘는 거대한 크기로 인해 높은 연산 비용이라는 치명적인 단점을 가지고 있었습니다. 실시간 로봇 제어에는 속도와 효율성이 생명인데 말이죠.
이러한 한계를 극복하기 위해, Chia-Yu Hung 등 연구진이 개발한 NORA가 등장했습니다! NORA는 단 3B 파라미터의 소형 모델로, 연산 비용을 획기적으로 줄이면서도 뛰어난 작업 성능을 유지하는 놀라운 성과를 달성했습니다. 비결은 무엇일까요?
NORA의 핵심: Qwen-2.5-VL-3B 모델을 기반으로 우수한 시각-의미 이해 능력을 활용하여 시각적 추론과 행동 지시를 강화했습니다. 여기에 970,000개의 실제 로봇 데모 데이터를 학습에 활용하여 현실 세계 적용 가능성을 높였습니다. 또한, FAST+ 토크나이저를 사용하여 행동 순서 생성의 효율성을 높였습니다.
결과: NORA는 기존 대규모 VLA 모델들을 능가하는 성능을 보이며, 연산 비용은 획기적으로 줄였습니다. 이제 실시간 로봇 자율주행의 꿈이 현실로 더욱 가까워졌습니다. NORA는 단순한 기술적 진보를 넘어, 로봇 공학의 미래를 바꿀 잠재력을 가지고 있습니다. 소형화와 고성능을 동시에 달성한 NORA의 성공은 앞으로의 연구 방향에 중요한 전환점이 될 것입니다. 실용적인 로봇 자율 시스템 개발에 대한 기대감을 더욱 높여주는 획기적인 연구입니다!
향후 전망: NORA의 성공은 더욱 소형화되고, 효율적인 VLA 모델 개발을 위한 새로운 가능성을 제시합니다. 실제 세계 적용에 중점을 둔 연구가 앞으로 더욱 활발해질 것으로 예상됩니다. 이를 통해 로봇이 우리 생활 곳곳에서 더욱 유용하게 활용될 수 있는 미래가 다가올 것입니다. NORA, 그 작은 크기 속에 담긴 무한한 가능성에 주목해 봅시다!
Reference
[arxiv] NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks
Published: (Updated: )
Author: Chia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria
http://arxiv.org/abs/2504.19854v1