혁신적인 로봇 학습: 강화 학습과 모방 학습의 시너지 효과, IN-RIL
Dechen Gao 등 연구팀이 개발한 IN-RIL은 강화 학습과 모방 학습을 결합하여 로봇 정책 미세 조정의 안정성과 샘플 효율성을 크게 향상시켰습니다. 기울기 분리 메커니즘을 통해 상충되는 그래디언트 업데이트를 해결하고, 다양한 벤치마크에서 우수한 성능을 입증했습니다. 이는 향후 지능형 로봇 개발에 큰 영향을 미칠 것으로 기대됩니다.

로봇 학습 분야에서 획기적인 발전이 이루어졌습니다! Dechen Gao를 비롯한 연구팀이 개발한 IN-RIL (INterleaved Reinforcement and Imitation Learning) 은 강화 학습(RL)과 모방 학습(IL)의 장점을 결합하여 로봇 정책 미세 조정의 새로운 지평을 열었습니다.
기존의 RL과 IL 결합 방식은 RL 단계에서 불안정성과 샘플 비효율성 문제를 겪었습니다. 하지만 IN-RIL은 RL 업데이트 후 주기적으로 IL 업데이트를 적용하는 독창적인 방식을 채택, IL의 안정성과 전문가 데이터의 지침을 활용하여 더욱 효율적인 탐색을 가능하게 합니다. 이는 마치 경험 많은 선생님(IL)이 학생(RL)의 학습을 꾸준히 도와주는 것과 같습니다.
더욱 놀라운 점은 서로 상충될 수 있는 RL과 IL의 그래디언트 업데이트를 직교 부분 공간에서 분리하는 기울기 분리 메커니즘을 개발했다는 것입니다. 이는 마치 두 개의 서로 다른 도로를 만들어 차량(그래디언트)의 충돌을 방지하는 것과 같습니다. 이를 통해 학습 과정의 안정성을 획기적으로 높였습니다.
FurnitureBench, OpenAI Gym, Robomimic 등 3가지 벤치마크에서 14가지 로봇 조작 및 이동 작업을 대상으로 진행된 실험 결과는 IN-RIL의 우수성을 명확히 보여줍니다. 희소 보상 또는 밀집 보상을 사용하는 장기 및 단기 작업 모두에서 샘플 효율성이 크게 향상되었고, 성능 저하 현상도 완화되었습니다. 특히 Robomimic Transport 작업에서는 성공률이 12%에서 88%로 무려 6.3배나 향상되었습니다! 이는 마치 로봇의 능력이 잠재력을 폭발시킨 것과 같습니다.
IN-RIL은 다양한 최첨단 RL 알고리즘과 호환되는 일반적인 플러그인으로, 향후 로봇 학습 분야에서 폭넓게 활용될 것으로 기대됩니다. GitHub 프로젝트 페이지에서 자세한 내용을 확인해 보세요!
이 연구는 로봇 학습의 새로운 가능성을 제시하며, 앞으로 더욱 지능적이고 효율적인 로봇 시스템 개발에 크게 기여할 것으로 예상됩니다. 단순한 모방을 넘어, 스스로 학습하고 성장하는 로봇의 시대가 더욱 가까워졌습니다.
Reference
[arxiv] IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning
Published: (Updated: )
Author: Dechen Gao, Hang Wang, Hanchu Zhou, Nejib Ammar, Shatadal Mishra, Ahmadreza Moradipari, Iman Soltani, Junshan Zhang
http://arxiv.org/abs/2505.10442v1