로봇 강화학습의 혁신: '보상 훈련 바퀴(RTW)'가 가져올 미래
Linji Wang 등 연구진이 개발한 '보상 훈련 바퀴(RTW)'는 자동화된 보조 보상 적응을 통해 로봇 강화학습의 효율성과 성능을 크게 향상시킨 혁신적인 프레임워크입니다. 시뮬레이션과 실제 로봇 실험 모두에서 우수한 성능을 입증하며, 로봇 강화학습 분야의 새로운 가능성을 제시했습니다.

로봇이 스스로 학습하고 복잡한 작업을 수행하는 강화학습 분야에서 획기적인 발전이 있었습니다. Linji Wang 등 연구진이 개발한 '보상 훈련 바퀴(Reward Training Wheels, RTW)' 라는 새로운 프레임워크가 바로 그 주인공입니다.
기존 로봇 강화학습은 정교하게 설계된 보조 보상에 의존해왔습니다. 하지만 이는 많은 노력과 시간을 필요로 할 뿐만 아니라, 인간의 편견이 개입될 가능성과 학습 과정 중 로봇의 능력 변화에 적응하지 못하는 한계를 가지고 있었습니다.
RTW는 이러한 문제점을 해결하기 위해 교사-학생 프레임워크를 도입했습니다. '교사' 역할을 하는 RTW는 학생인 로봇의 능력 변화를 실시간으로 모니터링하며, 보조 보상의 가중치를 동적으로 조절합니다. 즉, 어떤 보조 보상에 더 중점을 둘지, 덜 중점을 둘지를 스스로 판단하고 조정하는 것입니다. 이를 통해 주요 목표 달성을 위한 학습 효율을 극대화합니다.
연구진은 협소한 공간에서의 내비게이션과 험난한 지형 주행이라는 두 가지 어려운 로봇 작업에 RTW를 적용했습니다. 그 결과는 놀라웠습니다. 시뮬레이션에서 RTW는 전문가가 설계한 보상보다 내비게이션 성공률을 2.35% 향상시켰고, 험난한 지형 주행 성능은 무려 122.62% 개선했습니다. 또한, 학습 효율 또한 각각 35%와 3배나 향상되었습니다.
더욱 놀라운 것은 실제 로봇 실험에서도 그 효과가 입증되었다는 점입니다. 전문가가 설계한 보상으로는 5번의 시도 중 2번만 성공했던 작업에서 RTW는 5번 모두 성공하는 완벽한 결과를 달성했습니다. 또한, 차량의 안정성도 향상되어 방향각이 최대 47.4% 감소했습니다.
RTW는 단순한 기술적 발전을 넘어, 로봇 강화학습의 패러다임을 바꿀 잠재력을 가지고 있습니다. 자동화된 보상 적응을 통해 연구자들은 보다 효율적이고 효과적으로 로봇을 학습시킬 수 있으며, 이를 통해 더욱 복잡하고 다양한 작업을 수행하는 로봇의 개발을 가속화할 수 있을 것입니다. 앞으로 RTW가 로봇 공학의 발전에 어떤 영향을 미칠지 기대됩니다.
Reference
[arxiv] Reward Training Wheels: Adaptive Auxiliary Rewards for Robotics Reinforcement Learning
Published: (Updated: )
Author: Linji Wang, Tong Xu, Yuanjie Lu, Xuesu Xiao
http://arxiv.org/abs/2503.15724v1