혁신적인 AI 모델 학습법 등장: RIPT-VLA로 VLA 모델 성능 극대화


RIPT-VLA는 최소한의 지도 학습으로 VLA 모델의 성능을 획기적으로 향상시키는 혁신적인 사후 훈련 방식입니다. 뛰어난 데이터 및 컴퓨팅 효율성, 그리고 다양한 모델 및 상황에 대한 일반화 능력을 통해 VLA 모델의 실용성을 크게 높였습니다.

related iamge

최근, 시각-언어-행동(VLA) 모델의 성능 향상에 대한 연구가 활발히 진행되고 있습니다. 하지만 기존 VLA 모델 학습은 전문가의 오프라인 데모 데이터와 지도 학습에 크게 의존하여 새로운 작업이나 환경에 적응하는 데 어려움을 겪고, 데이터가 부족한 상황에서는 더욱 그렇습니다. 이러한 한계를 극복하기 위해, 탄 슈한(Shuhan Tan) 등 연구진이 개발한 RIPT-VLA(Reinforcement-learning-based Interactive Post-Training for Vision-Language-Action) 가 주목받고 있습니다.

RIPT-VLA는 간단하면서도 확장 가능한 강화 학습 기반의 상호작용적 사후 훈련 방식입니다. 희소한 이진 성공 보상만을 사용하여 사전 훈련된 VLA 모델을 미세 조정하는데, 이는 기존 방식과의 차별점입니다. 동적 전개 샘플링과 leave-one-out 우위 추정을 기반으로 안정적인 정책 최적화 알고리즘을 사용하는 것이 특징입니다.

RIPT-VLA의 놀라운 성능은 다음과 같습니다.

  • 다양한 VLA 모델 적용 가능: 경량 QueST 모델의 성능을 21.2% 향상시켰으며, 7B OpenVLA-OFT 모델의 성공률을 97.5%라는 전례 없는 수준으로 끌어올렸습니다.
  • 뛰어난 데이터 및 컴퓨팅 효율성: 단 한 번의 데모만으로도, 작동이 불가능했던 SFT 모델(4% 성공률)을 15번의 반복 안에 97%의 성공률로 개선시켰습니다.
  • 일반화 및 견고성: 학습된 정책은 다양한 작업과 시나리오에서 일반화되며 초기 상태 맥락에도 견고하게 작동합니다.

결론적으로 RIPT-VLA는 최소한의 지도 학습만으로 VLA 모델을 효과적으로 사후 훈련할 수 있는 실용적이고 효율적인 방법론입니다. 이는 VLA 모델의 실제 응용 분야 확장에 큰 기여를 할 것으로 예상됩니다. 앞으로 RIPT-VLA를 기반으로 더욱 발전된 AI 모델 학습 기술이 개발될 가능성에 기대를 모으고 있습니다. 이는 단순한 기술 향상을 넘어, AI가 더욱 다양하고 복잡한 상황에 적응하며 인간의 삶을 풍요롭게 하는 데 크게 기여할 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Interactive Post-Training for Vision-Language-Action Models

Published:  (Updated: )

Author: Shuhan Tan, Kairan Dou, Yue Zhao, Philipp Krähenbühl

http://arxiv.org/abs/2505.17016v1