LoHoVLA: 장기적 목표를 달성하는 로봇 지능의 혁신
중국 연구진이 개발한 LoHoVLA는 고차원 계획과 저차원 제어를 통합한 새로운 비전-언어-행동(VLA) 모델로, 장기적 목표를 가진 실제 환경 임베디드 작업에서 탁월한 성능을 보입니다. 새로운 데이터셋 LoHoSet과 계층적 폐쇄 루프 제어 메커니즘을 통해 기존 모델의 한계를 극복하고 일반화 가능한 로봇 지능 발전에 기여할 것으로 기대됩니다.

복잡한 현실 세계에서 로봇이 장기적인 목표를 달성하는 것은 여전히 어려운 난제입니다. 단순한 동작을 넘어 여러 단계의 해결책을 필요로 하는 고차원적인 목표를 성공적으로 수행하려면, 고차원적인 작업 계획(목표를 하위 작업으로 분해)과 저차원적인 동작 제어(정밀한 로봇 동작 생성) 모두 필요합니다. 기존의 비전-언어-행동(VLA) 모델과 계층적 아키텍처는 잠재력을 가지고 있지만, 계획 능력 부족이나 조정 문제로 성능이 저하되는 경우가 많았습니다.
이러한 한계를 극복하기 위해, 중국 연구진(Yi Yang, Jiaxuan Sun, Siqi Kou, Yihan Wang, Zhijie Deng)은 새로운 통합 VLA 프레임워크인 LoHoVLA를 개발했습니다. LoHoVLA는 대규모 사전 훈련된 비전-언어 모델(VLM)을 기반으로 하위 작업 생성 및 로봇 동작 예측을 위해 언어 및 행동 토큰을 생성합니다. 이 공유 표현은 다양한 작업에 대한 일반화 성능을 향상시킵니다. 또한, LoHoVLA는 고차원 계획 및 저차원 제어에서 발생하는 오류를 완화하기 위해 계층적 폐쇄 루프 제어 메커니즘을 도입했습니다.
LoHoVLA의 학습을 위해 연구팀은 Ravens 시뮬레이터를 기반으로 20개의 장기적 작업을 포함하는 새로운 데이터셋 LoHoSet을 구축했습니다. 각 작업에는 시각적 관찰, 언어적 목표, 하위 작업 및 로봇 동작으로 구성된 1,000개의 전문가 데모가 포함되어 있습니다.
실험 결과, LoHoVLA는 Ravens 시뮬레이터에서 장기적 목표를 가진 임베디드 작업에 대해 기존의 계층적 및 표준 VLA 접근 방식을 능가하는 성능을 보였습니다. 이는 일반화 가능한 임베디드 지능 발전을 위한 통합 아키텍처의 가능성을 보여주는 중요한 결과입니다. LoHoVLA는 실제 세계의 복잡한 문제 해결에 한 걸음 더 다가가는 혁신적인 모델로 평가됩니다. 이는 단순히 기술적 발전을 넘어, 로봇공학과 인공지능 분야의 미래를 밝히는 중요한 이정표가 될 것입니다.
핵심: LoHoVLA는 고차원 계획과 저차원 제어의 통합을 통해 장기적 목표 달성에 있어 뛰어난 성능을 보이는 혁신적인 로봇 제어 모델입니다. 새로운 데이터셋 LoHoSet을 통해 학습 및 평가가 이루어졌으며, 실험 결과는 그 효과를 명확히 입증합니다. 이는 더욱 발전된 일반화 가능한 로봇 지능 시대를 앞당길 것으로 기대됩니다.
Reference
[arxiv] LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks
Published: (Updated: )
Author: Yi Yang, Jiaxuan Sun, Siqi Kou, Yihan Wang, Zhijie Deng
http://arxiv.org/abs/2506.00411v1