로봇 조작의 새 지평을 열다: FSD 모델이 제시하는 '보는 것에서 행하는 것'으로의 도약


본 기사는 로봇 조작의 일반화 문제를 해결하기 위해 공간 관계 추론 기반 중간 표현을 생성하는 FSD 모델을 소개합니다. FSD 모델은 다양한 벤치마크에서 우수한 성능을 보였으며, 실제 로봇 환경에서도 성공적으로 구현됨을 보여줍니다. 이는 로봇 지능 발전에 중요한 이정표가 될 것으로 기대됩니다.

related iamge

로봇이 인간처럼 다양한 상황에서 자유롭게 물건을 조작하는 것은 오랜 과제였습니다. 특히, 본 적 없는 상황이나 새로운 작업에 직면했을 때 로봇의 일반화 능력은 여전히 큰 난관으로 남아있습니다. 기존의 시각-언어-행동(VLA) 모델들은 일반적인 시각-언어 모델(VLM)을 기반으로 하지만, 실제 데이터의 부족과 이질성으로 인해 강력한 제로샷 성능을 달성하는 데 어려움을 겪어왔습니다.

Yuan Yifu 등 10명의 연구원은 이러한 문제를 해결하기 위해 FSD(From Seeing to Doing) 라는 혁신적인 비전-언어 모델을 제안했습니다. FSD는 공간 관계 추론을 통해 중간 표현을 생성하여 로봇 조작에 대한 세밀한 지침을 제공합니다. 핵심은 계층적 데이터 파이프라인을 통한 훈련과 시각 신호와 공간 좌표를 정렬하는 자기 일관성 메커니즘에 있습니다. 이는 마치 인간이 물체의 위치와 관계를 이해하고 행동을 계획하는 과정과 유사합니다.

연구팀은 광범위한 실험을 통해 FSD의 성능을 종합적으로 검증했습니다. 일반적인 공간 추론 능력과 구현된 참조 능력을 평가하는 8개의 벤치마크와 새롭게 제안된 더욱 어려운 벤치마크인 VABench에서 뛰어난 성능을 달성했습니다. 더 나아가, 실제 로봇 조작에서의 제로샷 능력을 검증하여 SimplerEnv와 실제 로봇 환경 모두에서 기존 방법보다 성능을 크게 향상시켰습니다. SimplerEnv에서는 54.1%의 성공률을, 8가지 실제 작업에서는 72%의 성공률을 달성하여 최고 성능의 기존 방법보다 30%나 높은 성과를 보였습니다. 이는 FSD가 단순한 시각 정보를 넘어, 공간적 이해와 추론 능력을 통해 로봇 조작의 새로운 가능성을 열었다는 것을 의미합니다.

이 연구는 로봇 조작 분야의 획기적인 발전으로, 앞으로 더욱 발전된 로봇 시스템 개발에 중요한 이정표를 제시할 것으로 기대됩니다. FSD 모델은 복잡한 환경에서도 로봇의 지능적인 행동을 가능하게 하여, 산업 자동화, 서비스 로봇, 인간-로봇 상호작용 등 다양한 분야에 혁신을 가져올 수 있을 것입니다. 하지만, 실제 세계의 복잡성을 완벽하게 반영하는 데에는 여전히 한계가 있을 수 있으며, 더욱 다양한 환경과 작업에 대한 지속적인 연구가 필요할 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation

Published:  (Updated: )

Author: Yifu Yuan, Haiqin Cui, Yibin Chen, Zibin Dong, Fei Ni, Longxin Kou, Jinyi Liu, Pengyi Li, Yan Zheng, Jianye Hao

http://arxiv.org/abs/2505.08548v1