꿈꾸는 로봇: LLM 기반 자동화된 보상 스케줄링으로 로봇 학습의 새 지평을 열다


황창신 등 연구진이 LLM 기반 자동화된 하이브리드 보상 스케줄링(AHRS) 프레임워크를 개발하여 로봇 강화학습의 효율성과 성능을 향상시켰습니다. 다양한 고자유도 로봇 작업에서 평균 6.48%의 성능 향상을 달성하며 실용성을 입증했습니다.

related iamge

꿈꾸는 로봇: LLM 기반 자동화된 보상 스케줄링으로 로봇 학습의 새 지평을 열다

자유도가 높은 로봇에게 특정 기술을 학습시키는 것은 로봇 동역학의 복잡성 때문에 여전히 어려운 과제입니다. 강화학습(Reinforcement Learning, RL)은 이 문제에 대한 유망한 해결책으로 떠오르고 있지만, 로봇 동작의 다양한 제약 조건을 고려하기 위해 여러 보상 함수를 설계해야 하는 어려움이 있습니다.

기존 접근 방식은 일반적으로 모든 보상 요소를 무차별적으로 합산하여 RL 가치 함수와 정책을 최적화합니다. 하지만 황창신 등 연구진은 이러한 모든 보상 요소의 획일적인 포함이 비효율적이며 로봇의 학습 성능을 제한한다는 점을 지적했습니다.

이 문제를 해결하기 위해 연구진은 대규모 언어 모델(LLM) 기반의 자동화된 하이브리드 보상 스케줄링(AHRS) 프레임워크를 제안합니다. 이는 정책 최적화 과정 전반에 걸쳐 각 보상 요소의 학습 강도를 동적으로 조정하여 로봇이 점진적이고 체계적인 방식으로 기술을 습득할 수 있도록 합니다.

구체적으로, 연구진은 각 분기가 별개의 보상 요소에 해당하는 다중 분기 가치 네트워크를 설계했습니다. 정책 최적화 중에 각 분기에는 중요도를 반영하는 가중치가 할당되며, 이러한 가중치는 LLM에 의해 설계된 규칙을 기반으로 자동으로 계산됩니다. LLM은 작업 설명에서 파생된 규칙 집합을 미리 생성하고, 훈련 중에는 각 분기의 성능을 평가하는 언어 프롬프트를 기반으로 라이브러리에서 가중치 계산 규칙을 선택합니다.

실험 결과, AHRS 방법은 여러 고자유도 로봇 작업에서 평균 6.48%의 성능 향상을 달성했습니다. 이는 LLM을 활용한 지능적인 보상 관리가 로봇 학습의 효율성과 성능을 크게 향상시킬 수 있음을 보여주는 중요한 결과입니다. 앞으로 LLM과 강화학습의 결합은 더욱 발전하여 로봇 기술의 혁신을 이끌 것으로 기대됩니다.

핵심: 본 연구는 LLM을 활용하여 로봇의 강화학습 과정에서 보상 함수의 가중치를 동적으로 조절하는 AHRS 프레임워크를 제시하고, 다양한 로봇 작업에서 성능 향상을 입증했습니다. 이는 로봇 학습의 새로운 패러다임을 제시하는 획기적인 연구입니다. 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Automated Hybrid Reward Scheduling via Large Language Models for Robotic Skill Learning

Published:  (Updated: )

Author: Changxin Huang, Junyang Liang, Yanbin Chang, Jingzhao Xu, Jianqiang Li

http://arxiv.org/abs/2505.02483v1