3D 인식 비전 언어 액션 모델 OG-VLA: 로봇 조작의 새로운 지평을 열다
OG-VLA는 비전 언어 액션 모델과 3D 인식 정책의 장점을 결합한 혁신적인 로봇 조작 모델로, 기존 모델 대비 40% 이상의 성능 향상과 강력한 일반화 능력을 보여주었습니다. 직교 투영 이미지 생성 및 LLM 활용을 통해 다양한 환경과 지시에 대한 로봇의 적응력을 크게 높였습니다.

Ishika Singh 등 6명의 연구원이 발표한 논문 "OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation"은 로봇 조작 분야에 혁신적인 발전을 가져올 OG-VLA 모델을 소개합니다. OG-VLA는 비전 언어 액션(VLA) 모델의 일반화 능력과 3D 인식 정책의 강건성을 결합한 새로운 아키텍처와 학습 프레임워크입니다.
기존 모델의 한계 극복
기존의 3D 인식 로봇 정책은 정밀한 조작 작업에서는 뛰어난 성능을 보이지만, 보지 못한 지시, 장면, 물체에 대한 일반화에는 어려움을 겪었습니다. 반면 VLA 모델은 지시와 장면에 대한 일반화 능력이 뛰어나지만, 카메라와 로봇 자세 변화에 민감한 문제점이 있었습니다.
OG-VLA의 혁신적인 접근 방식
OG-VLA는 이러한 한계를 극복하기 위해 언어 및 비전 기반 모델에 내재된 사전 지식을 활용하여 3D 인식 키프레임 정책의 일반화 능력을 향상시켰습니다. 다양한 뷰에서 입력 관측값을 점군으로 투영한 후, 표준 직교 뷰에서 렌더링하여 입력 뷰 불변성과 입력 및 출력 공간 간의 일관성을 보장합니다. 이러한 표준 뷰는 비전 백본, 대규모 언어 모델(LLM), 그리고 이미지 확산 모델을 통해 처리되어 다음 엔드 이펙터의 위치와 방향을 인코딩하는 이미지를 생성합니다.
괄목할 만한 성능 향상
Arnold 및 Colosseum 벤치마크 평가 결과, OG-VLA는 보지 못한 환경에 대한 일반화 능력에서 최첨단 성능을 달성했습니다. 기존 모델 대비 40% 이상의 성능 향상을 보였으며, 이미 알고 있는 환경에서도 견고한 성능을 유지했습니다. 또한, 실제 환경에서 3~5회의 시연만으로도 강력한 일반화 능력을 보여주었습니다. (자세한 내용은 https://og-vla.github.io/ 참조)
결론
OG-VLA는 로봇 조작 분야의 획기적인 발전으로, 다양한 환경과 작업에 적응 가능한 로봇 시스템 개발에 중요한 이정표를 제시합니다. 향후 연구에서는 OG-VLA의 일반화 능력을 더욱 향상시키고, 실제 세계 적용 가능성을 확대하는 데 집중할 것으로 예상됩니다. OG-VLA의 등장은 더욱 지능적이고 유연한 로봇 시스템 구축을 위한 새로운 가능성을 열어줍니다.
Reference
[arxiv] OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation
Published: (Updated: )
Author: Ishika Singh, Ankit Goyal, Stan Birchfield, Dieter Fox, Animesh Garg, Valts Blukis
http://arxiv.org/abs/2506.01196v1