ForceVLA: 힘 인식 MoE를 활용한 VLA 모델 향상 및 접촉 중심 조작의 혁신


중국과학원 자동화연구소 연구진은 힘 감지 정보를 통합한 ForceVLA 모델을 개발하여 접촉 중심 조작 작업의 성공률을 크게 향상시켰습니다. ForceVLA-Data 데이터셋과 FVLMoE 모듈을 통해 로봇의 적응력을 높이고, 물리적 지능 로봇 제어 분야의 새로운 기준을 제시했습니다.

related iamge

서론: 최근 비전-언어-행동(VLA) 모델은 사전 훈련된 시각 및 언어 표현을 활용하여 범용 로봇 조작 기술을 발전시켰습니다. 하지만, 특히 시각적 가림이나 역동적인 불확실성 하에서 힘을 포함하는 미세한 제어가 필요한 접촉이 많은 작업에서는 어려움을 겪습니다. 이러한 한계를 극복하기 위해, 중국과학원 자동화연구소(IA CAS) 연구진이 제시한 ForceVLA는 주목할 만한 성과입니다.

ForceVLA의 핵심: ForceVLA는 외부 힘 감지를 VLA 시스템 내의 일급 모달리티로 취급하는 새로운 엔드투엔드 조작 프레임워크입니다. 핵심은 FVLMoE(Force-aware Mixture-of-Experts) 모듈로, 이 모듈은 실시간 6축 힘 피드백과 사전 훈련된 시각-언어 임베딩을 동적으로 통합하여 행동을 해독합니다. 이는 모달리티별 전문가 간의 상황 인식 라우팅을 가능하게 하여, 로봇이 미세한 접촉 역학에 적응하는 능력을 향상시킵니다.

데이터셋의 중요성: 연구진은 ForceVLA-Data라는 새로운 데이터셋도 함께 공개했습니다. 이 데이터셋은 다섯 가지 접촉이 많은 조작 작업에 걸쳐 시각, 고유 수용 감각 및 힘-토크 신호를 동기화하여 제공합니다. 이는 모델 학습의 질적 향상에 크게 기여합니다.

성과 및 영향: ForceVLA는 기존 강력한 기준 모델에 비해 평균 작업 성공률을 23.2% 향상시켰으며, 플러그 삽입과 같은 작업에서 최대 80%의 성공률을 달성했습니다. 이는 다양한 모달리티 통합이 숙련된 조작에 얼마나 중요한지를 보여주는 훌륭한 예시이며, 물리적으로 지능적인 로봇 제어 분야의 새로운 기준을 제시합니다.

결론: ForceVLA는 힘 감지 정보를 효과적으로 통합함으로써 접촉이 많은 복잡한 조작 작업에서 로봇의 성능을 크게 향상시켰습니다. FVLMoE 모듈과 ForceVLA-Data 데이터셋은 향후 로봇 조작 기술 발전에 중요한 기여를 할 것으로 예상됩니다. 관련 코드와 데이터는 https://sites.google.com/view/forcevla2025에서 확인할 수 있습니다. 이 연구는 로봇 공학 분야의 혁신적인 발전이며, 앞으로 더욱 발전된 물리적 지능을 가진 로봇의 출현을 기대하게 합니다. 🤖👏


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation

Published:  (Updated: )

Author: Jiawen Yu, Hairuo Liu, Qiaojun Yu, Jieji Ren, Ce Hao, Haitong Ding, Guangyu Huang, Guofan Huang, Yan Song, Panpan Cai, Cewu Lu, Wenqiang Zhang

http://arxiv.org/abs/2505.22159v1