샘플 및 계산 효율적인 연속 시간 강화 학습: 일반 함수 근사를 활용한 새로운 지평
본 연구는 연속 시간 강화 학습(CTRL)의 이론적 기반을 강화하고, 일반 함수 근사를 사용하는 상황에서도 샘플 및 계산 효율성을 높이는 새로운 알고리즘을 제시합니다. 최적주의 기반 신뢰 구간과 구조화된 정책 업데이트 전략을 통해 제한된 데이터로도 최적 정책에 근접하며, 연속 제어 및 확산 모델 미세 조정에서 효과를 검증했습니다.

끊임없이 변화하는 환경 속에서의 의사결정 문제는 인공지능 분야의 큰 과제입니다. 이러한 문제에 대한 해결책으로 떠오르는 것이 바로 연속 시간 강화 학습(Continuous-time Reinforcement Learning, CTRL) 입니다. 하지만 CTRL은 일반적인 함수 근사를 사용하는 상황에서 이론적 이해가 부족하고, 계산 효율성도 떨어지는 한계를 가지고 있었습니다.
Runze Zhao 등 연구진은 최근 발표한 논문 "Sample and Computationally Efficient Continuous-Time Reinforcement Learning with General Function Approximation"에서 이러한 문제에 대한 해결책을 제시했습니다. 그들은 최적주의 기반 신뢰 구간(optimism-based confidence sets) 을 활용하여, 일반적인 함수 근사를 사용하는 CTRL에 대한 최초의 샘플 복잡도 보장을 확립했습니다. 이는 제한된 데이터만으로도 최적 정책에 근사하는 것이 가능함을 의미하는 놀라운 결과입니다.
연구진의 알고리즘은 $N$개의 측정을 사용하여 $\tilde{O}(\sqrt{d_{\mathcal{R}} + d_{\mathcal{F}}}N^{-1/2})$ 의 suboptimality gap을 갖는 근사 최적 정책을 학습합니다. 여기서 $d_{\mathcal{R}}$과 $d_{\mathcal{F}}$는 각각 보상 함수와 동적 함수의 분포적 회피 차원(distributional Eluder dimensions)을 나타내며, 강화 학습에서 일반적인 함수 근사의 복잡성을 포착합니다.
하지만 단순히 이론적인 성과에 그치지 않습니다. 연구진은 구조화된 정책 업데이트(structured policy updates) 와 대안적인 측정 전략(alternative measurement strategy) 을 도입하여 정책 업데이트와 롤아웃 횟수를 획기적으로 줄였습니다. 이는 계산 비용을 현저히 절감하고, 실제 응용 가능성을 높이는 중요한 발전입니다.
연구 결과는 연속 제어 작업과 확산 모델 미세 조정(diffusion model fine-tuning)에서 실험적으로 검증되었습니다. 기존 알고리즘과 비교했을 때, 훨씬 적은 정책 업데이트와 롤아웃으로도 경쟁력 있는 성능을 보였습니다. 이는 CTRL의 실용성을 크게 향상시킨 획기적인 연구 결과로 평가됩니다. 앞으로 이 연구는 자율 주행, 로보틱스, 금융 모델링 등 다양한 분야에서 연속 시간 강화 학습의 적용 범위를 넓히는 데 크게 기여할 것으로 기대됩니다.
Reference
[arxiv] Sample and Computationally Efficient Continuous-Time Reinforcement Learning with General Function Approximation
Published: (Updated: )
Author: Runze Zhao, Yue Yu, Adams Yiyue Zhu, Chen Yang, Dongruo Zhou
http://arxiv.org/abs/2505.14821v1