딥 강화학습의 혁신: 뉴런 단위의 안정성-가소성 균형
Lan Jiahua 등이 개발한 NBSP는 딥 강화학습 에이전트의 안정성-가소성 딜레마를 뉴런 단위에서 해결하는 혁신적인 방법입니다. 특정 뉴런을 식별하여 기존 기술은 유지하면서 새로운 기술을 학습하는 전략을 통해 Meta-World와 Atari 벤치마크에서 뛰어난 성능을 입증했습니다.

인간은 새로운 지식을 끊임없이 습득하는 놀라운 능력을 지니고 있습니다. 하지만 딥 강화학습(DRL) 에이전트는 기존 기술을 유지하는 '안정성'과 새로운 지식을 학습하는 '가소성' 사이에서 균형을 맞추는 데 어려움을 겪습니다. 이른바 '안정성-가소성 딜레마'입니다.
기존 연구들은 주로 네트워크 전체 수준에서 이 균형을 맞추려고 노력했습니다. 하지만 Lan Jiahua 등 6명의 연구자들은 이러한 접근 방식의 한계를 극복하고자, 뉴런 단위에서 안정성과 가소성의 균형을 맞추는 새로운 방법(NBSP) 을 제시했습니다. 이는 인간 뇌의 작동 원리에서 영감을 얻은 획기적인 시도입니다.
NBSP의 핵심 아이디어는 특정 뉴런이 특정 기술과 밀접하게 관련되어 있다는 관찰에서 출발합니다. 연구진은 목표 지향적 방법을 통해 **'RL 기술 뉴런'**을 식별하고, 이 뉴런들을 중심으로 기존 기술을 보존하면서 동시에 새로운 작업에 적응할 수 있도록 하는 프레임워크를 구축했습니다. 구체적으로, 기울기 마스킹(gradient masking)과 경험 재현(experience replay) 기술을 활용하여 'RL 기술 뉴런'에 대한 학습을 선택적으로 제어하는 방식입니다.
Meta-World와 Atari라는 벤치마크를 통해 NBSP의 성능을 검증한 결과, 기존 방법들을 압도적으로 능가하는 성능을 보였습니다. 이는 단순히 안정성과 가소성을 향상시킨 것이 아니라, 인간의 지속적인 학습 능력에 한 걸음 더 가까이 다가간 쾌거라고 할 수 있습니다.
이 연구는 단순한 기술적 발전을 넘어, 인간의 학습 메커니즘에 대한 이해를 깊이하는 데에도 크게 기여할 것으로 기대됩니다. 앞으로 NBSP를 기반으로 한 더욱 발전된 강화학습 기술들이 개발되어, 인공지능의 학습 능력을 획기적으로 향상시킬 수 있을 것입니다.
Reference
[arxiv] Neuron-level Balance between Stability and Plasticity in Deep Reinforcement Learning
Published: (Updated: )
Author: Jiahua Lan, Sen Zhang, Haixia Pan, Ruijun Liu, Li Shen, Dacheng Tao
http://arxiv.org/abs/2504.08000v1