마인크래프트 정복하는 AI: JARVIS-VLA의 놀라운 성과
JARVIS-VLA는 시각 및 언어적 지도를 활용한 자기 지도 학습 방식을 통해 마인크래프트에서 1000개 이상의 작업을 수행할 수 있는 VLA 모델을 개발한 연구입니다. 기존 방식 대비 40% 향상된 성능을 기록했으며, 코드, 모델, 데이터셋을 오픈소스로 공개하여 추가 연구를 위한 기반을 마련했습니다.

최근, 오픈 월드 환경에서의 행동 기반 의사결정이 인공지능 분야의 뜨거운 감자로 떠올랐습니다. 대규모 웹 데이터셋으로 사전 훈련된 시각 언어 행동(VLA) 모델들은 이러한 의사결정 과제에서 괄목할 만한 성과를 보여주고 있죠. 하지만 기존 연구는 주로 행동 사후 훈련에 집중하여 기본 모델 자체의 개선에는 소홀한 경향이 있었습니다.
이러한 한계를 극복하고자 등장한 것이 바로 JARVIS-VLA 입니다! Li Muyao 등 연구진은 시각 및 언어적 지도를 활용한 자기 지도 학습 방식인 'Act from Visual Language Post-Training' 기법을 통해 시각 언어 모델(VLMs)을 정교하게 다듬었습니다. 이를 통해 모델의 세계 지식, 시각 인식, 그리고 오픈 월드 환경에서의 공간적 기반 능력이 향상되었습니다.
그 결과는 놀랍습니다. JARVIS-VLA는 마인크래프트에서 제작, 제련, 요리, 채굴, 사냥 등 1000개가 넘는 다양한 작업을 수행할 수 있게 되었습니다. 이는 단순히 명령을 따르는 수준을 넘어, 인간의 지시를 이해하고 복잡한 작업을 수행하는 능력을 보여주는 것입니다. 실험 결과, 기존 최고 성능의 에이전트보다 40%나 향상된 성능을 보였으며, 전통적인 모방 학습 기반 정책보다도 뛰어난 성능을 기록하며 최첨단 기술임을 입증했습니다.
더욱 고무적인 것은 연구진이 코드, 모델, 그리고 데이터셋을 모두 오픈소스로 공개했다는 점입니다. 이는 후속 연구를 위한 훌륭한 기반을 마련해 줄 뿐만 아니라, AI 기술의 발전에 크게 기여할 것으로 예상됩니다. JARVIS-VLA 프로젝트 페이지(https://craftjarvis.github.io/JarvisVLA)를 통해 더 자세한 정보를 확인할 수 있습니다.
결론적으로, JARVIS-VLA는 대규모 시각 언어 모델의 사후 훈련을 통해 오픈 월드 환경에서의 AI 에이전트 성능을 획기적으로 향상시킨 혁신적인 연구입니다. 이 연구는 AI의 게임 플레이 능력을 넘어, 복잡한 현실 세계 문제 해결에도 적용될 수 있는 가능성을 보여주는 중요한 이정표가 될 것입니다. 앞으로 이 기술이 어떻게 발전하고 활용될지 기대됩니다!
Reference
[arxiv] JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse
Published: (Updated: )
Author: Muyao Li, Zihao Wang, Kaichen He, Xiaojian Ma, Yitao Liang
http://arxiv.org/abs/2503.16365v1