$π_{0.5}$: 실세계 일반화를 위한 비전-언어-행동 모델의 혁신
본 기사는 다양한 로봇과 데이터 소스를 활용하여 실세계 일반화 능력을 갖춘 비전-언어-행동 모델 $π_{0.5}$
의 개발 및 그 놀라운 성과를 소개합니다. 이 모델은 장기간에 걸친 숙련된 조작 기술을 구현하여 로봇 기술의 새로운 시대를 열었습니다.

소개:
로봇이 실험실을 넘어 실생활에서 유용하게 활용되려면 실제 세계의 다양한 상황에 적응해야 합니다. 최근 비전-언어-행동(VLA) 모델은 엔드투엔드 로봇 제어 분야에서 놀라운 성과를 보였지만, 실제 세계의 복잡한 상황에 얼마나 잘 일반화될 수 있는지는 여전히 풀어야 할 과제였습니다.
$π_{0.5}$ 모델의 등장:
Physical Intelligence를 비롯한 다수의 연구진은 이러한 한계를 극복하기 위해 새로운 모델 $π_{0.5}$
를 개발했습니다. $π_{0}$
모델을 기반으로 하는 $π_{0.5}$
는 이종 작업에 대한 공동 훈련을 통해 폭넓은 일반화 능력을 달성하는 데 성공했습니다. 여기에는 다양한 로봇 데이터, 고차원 의미 예측, 웹 데이터 등 방대한 데이터가 활용되었습니다.
핵심 기술:
$π_{0.5}$
는 이미지 관찰, 언어 명령, 객체 탐지, 의미적 하위 작업 예측, 저수준 행동 등을 결합한 혼합 다중 모달 예제와 공동 훈련을 결합하여 작동합니다. 이는 단순히 하나의 환경에서 학습하는 것보다 훨씬 다양한 상황에 적응할 수 있는 능력을 제공합니다. 연구진은 이러한 지식 전이가 효과적인 일반화에 필수적임을 실험을 통해 입증했습니다.
놀라운 성과:
가장 주목할 만한 성과는 엔드투엔드 학습 기반 로봇 시스템이 처음으로 장기간에 걸친 숙련된 조작 기술을 수행했다는 점입니다. 예를 들어, 완전히 새로운 집의 주방이나 침실을 청소하는 등의 작업을 성공적으로 수행했습니다. 이는 로봇 기술의 새로운 지평을 여는 획기적인 성과라 할 수 있습니다.
결론 및 미래 전망:
$π_{0.5}$
모델은 실제 세계의 다양한 상황에 적응 가능한 로봇 개발에 중요한 이정표를 제시했습니다. 이러한 기술 발전은 앞으로 가정용 로봇, 산업용 로봇 등 다양한 분야에서 로봇의 활용 범위를 획기적으로 확장할 것으로 기대됩니다. 향후 연구는 더욱 복잡하고 다양한 작업에 대한 일반화 능력 향상에 초점을 맞출 것으로 예상됩니다.
Reference
[arxiv] $π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization
Published: (Updated: )
Author: Physical Intelligence, Kevin Black, Noah Brown, James Darpinian, Karan Dhabalia, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Niccolo Fusai, Manuel Y. Galliker, Dibya Ghosh, Lachy Groom, Karol Hausman, Brian Ichter, Szymon Jakubczak, Tim Jones, Liyiming Ke, Devin LeBlanc, Sergey Levine, Adrian Li-Bell, Mohith Mothukuri, Suraj Nair, Karl Pertsch, Allen Z. Ren, Lucy Xiaoyang Shi, Laura Smith, Jost Tobias Springenberg, Kyle Stachowicz, James Tanner, Quan Vuong, Homer Walke, Anna Walling, Haohuan Wang, Lili Yu, Ury Zhilinsky
http://arxiv.org/abs/2504.16054v1