꾸준한 학습, 꾸준한 적응: 지속적 강화학습의 가소성 손실 문제 해결


본 연구는 지속적 강화학습에서 가소성 손실 문제를 해결하기 위해 churn 감소에 초점을 맞춘 C-CHAIN 알고리즘을 제시합니다. NTK 행렬 순위 감소와 churn 증가의 상관관계를 밝히고, 다양한 벤치마크에서 C-CHAIN의 우수성을 검증했습니다. 이는 더욱 견고하고 적응력 있는 AI 에이전트 개발에 중요한 발전입니다.

related iamge

인공지능(AI) 에이전트가 새로운 환경이나 과제에 지속적으로 적응하는 능력, 바로 '가소성'은 지속적 학습의 핵심입니다. 하지만 깊은 신경망을 기반으로 하는 지속적 강화학습(Continual Reinforcement Learning)에서는 이 가소성이 점차 사라지는 현상이 나타납니다. Hongyao Tang 등 연구진은 최근 논문에서 이 문제의 원인을 'churn' 즉, 미니배치 학습으로 인한 네트워크 출력의 변동성에서 찾았습니다.

연구진은 미니배치 학습 과정에서 신경 탄젠트 커널(Neural Tangent Kernel, NTK) 행렬의 순위가 점차 감소하는 현상을 관찰했습니다. 놀랍게도, 이 순위 감소는 churn 증가와 밀접한 관련이 있으며, 결국 가소성 손실로 이어짐을 밝혀냈습니다. 이는 마치 유연했던 몸이 점점 굳어져 새로운 자세를 취하기 어려워지는 것과 같습니다.

그렇다면 이 문제를 어떻게 해결할 수 있을까요? 연구진은 churn을 줄이는 것이 해결책임을 제시합니다. Churn 감소는 NTK 행렬의 순위 감소를 막고, 일반적인 강화학습 기울기의 크기를 적응적으로 조절하는 효과를 가져옵니다. 이를 바탕으로 연구진은 'Continual Churn Approximated Reduction (C-CHAIN)'이라는 새로운 방법을 개발했습니다.

C-CHAIN은 OpenAI Gym Control, ProcGen, DeepMind Control Suite, MinAtar 등 다양한 벤치마크 환경에서 기존 방법들을 능가하는 성능을 보였습니다. 이는 마치 굳어가는 몸에 윤활유를 칠하여 다시 유연성을 회복시킨 것과 같습니다. 본 연구는 지속적 강화학습의 발전에 중요한 이정표를 제시하며, 더욱 견고하고 적응력 높은 AI 에이전트 개발에 기여할 것으로 기대됩니다. 앞으로 C-CHAIN이 실제 응용 분야에 어떻게 적용될지, 그리고 더욱 발전된 기술로 이어질지 주목할 필요가 있습니다.

주요 연구진: Hongyao Tang, Johan Obando-Ceron, Pablo Samuel Castro, Aaron Courville, Glen Berseth


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Mitigating Plasticity Loss in Continual Reinforcement Learning by Reducing Churn

Published:  (Updated: )

Author: Hongyao Tang, Johan Obando-Ceron, Pablo Samuel Castro, Aaron Courville, Glen Berseth

http://arxiv.org/abs/2506.00592v1