GROVE: 개방형 어휘 물리적 기술 학습의 혁신
중국 연구진이 개발한 GROVE는 LLM과 VLM을 결합하여 개방형 어휘 물리적 기술 학습의 새로운 가능성을 열었습니다. Pose2CLIP을 통해 시뮬레이션과 실제 이미지 간의 도메인 격차를 해소하고 학습 속도를 획기적으로 향상시킨 GROVE는 인공지능 분야에 혁신적인 발전을 가져올 것으로 기대됩니다.

인공지능의 새로운 지평을 여는 GROVE: 개방형 어휘 물리적 기술 학습
최근 인공지능 분야에서 시뮬레이션 에이전트의 개방형 어휘 물리적 기술 학습은 가장 큰 도전 과제 중 하나입니다. 기존의 강화 학습 방법은 수동으로 설계된 보상의 확장성 부족과 데모 기반 방법의 일반화 어려움에 직면해 있었습니다.
하지만 중국 과학자팀(Cui, Liu, Meng, Yu, Song, Zhang, Zhu, Huang)이 개발한 GROVE는 이러한 한계를 극복하는 획기적인 프레임워크입니다. GROVE는 수동 엔지니어링이나 특정 작업 데모 없이 개방형 어휘 물리적 기술 학습을 가능하게 합니다.
GROVE의 핵심은 LLM(대규모 언어 모델)과 VLM(비전 언어 모델) 의 강력한 시너지에 있습니다. LLM은 작업 요구 사항을 포착하는 정밀한 물리적 제약 조건을 생성하고, VLM은 동작 의미와 자연스러움을 평가합니다. VLM 기반 피드백을 통해 LLM이 생성한 제약 조건을 지속적으로 개선하여 자체적으로 향상되는 보상 시스템을 구축하는 것이죠. 마치 인간의 학습 과정처럼 말입니다.
또한, 시뮬레이션과 실제 이미지 간의 도메인 격차를 해소하기 위해 Pose2CLIP이라는 경량 매퍼를 개발했습니다. Pose2CLIP은 계산 비용이 많이 드는 렌더링 없이 에이전트 포즈를 효율적으로 의미 특징 공간으로 투영합니다. 이를 통해 학습 속도를 획기적으로 향상시켰습니다.
다양한 구현과 학습 패러다임에 대한 광범위한 실험 결과, GROVE는 기존 방법보다 22.2% 높은 동작 자연스러움과 25.7% 향상된 작업 완료 점수를 달성했습니다. 게다가 8.4배 빠른 학습 속도를 보였습니다. 이러한 놀라운 성과는 시뮬레이션 환경에서 확장 가능한 물리적 기술 습득을 위한 새로운 기반을 마련합니다.
GROVE는 단순한 기술적 발전을 넘어, 인공지능이 복잡한 물리적 상호 작용을 이해하고 학습하는 방식에 대한 패러다임 전환을 제시합니다. 앞으로 GROVE가 로봇 공학, 게임 개발, 가상 현실 등 다양한 분야에 혁신을 가져올 것으로 기대됩니다. 하지만, 더욱 정교한 환경에서의 성능 검증 및 LLM, VLM의 한계를 극복하는 연구가 필요할 것으로 보입니다.
Reference
[arxiv] GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill
Published: (Updated: )
Author: Jieming Cui, Tengyu Liu, Ziyu Meng, Jiale Yu, Ran Song, Wei Zhang, Yixin Zhu, Siyuan Huang
http://arxiv.org/abs/2504.04191v1