혁신적인 AI 훈련 프레임워크 NCDPO: 확산 정책의 한계를 뛰어넘다
Yang Ningyuan 등 연구진이 개발한 NCDPO는 확산 정책의 계산 복잡성 문제를 해결하여 높은 샘플 효율성과 성능을 달성한 새로운 훈련 프레임워크입니다. 다양한 벤치마크에서 기존 방법을 능가하는 결과를 보였으며, AI 기술 발전에 크게 기여할 것으로 기대됩니다.

로봇 공학, 게임, 자율 주행 등 다양한 의사결정 분야에서 널리 활용되는 확산 정책(Diffusion Policies) . 강력한 표현력으로 다양한 기술을 학습할 수 있지만, 데이터 부족으로 인해 최적이 아닌 경로를 생성하거나 심각한 오류를 일으킬 수 있다는 단점이 존재했습니다. 기존의 강화 학습(Reinforcement Learning, RL) 기반 미세 조정 방법들은 확산 모델에 Proximal Policy Optimization (PPO)을 효과적으로 적용하는 데 어려움을 겪었습니다. 특히, 잡음 제거 과정에서의 행동 가능성 추정(action likelihood estimation)의 계산 복잡성이 주요 걸림돌이었습니다. Yang Ningyuan 등 연구진은 이러한 문제를 해결하기 위해 NCDPO라는 혁신적인 프레임워크를 제시했습니다.
NCDPO는 확산 정책을 노이즈 조건부 결정론적 정책(noise-conditioned deterministic policy) 으로 재구성하여, 각 잡음 제거 단계를 미리 샘플링된 잡음을 조건으로 하는 미분 가능한 변환으로 처리합니다. 이를 통해 가능성 평가(likelihood evaluation)와 모든 확산 시간 단계에 걸친 기울기 역전파(gradient backpropagation)를 가능하게 합니다. 이는 기존 방법들이 갖고 있던 계산 복잡성 문제를 효과적으로 해결하는 핵심적인 전략입니다.
연구진은 무작위로 초기화된 정책으로 시작하는 실험에서, 확산 정책의 온라인 조정이 MLP 정책에 PPO를 직접 적용하는 것보다 샘플 효율성이 훨씬 낮다는 것을 발견했습니다. 하지만 NCDPO는 이러한 문제를 극복하고, 처음부터 학습하는 경우 MLP+PPO와 비슷한 샘플 효율성을 달성했습니다. 더 나아가, 연속 로봇 제어 및 다중 에이전트 게임 시나리오를 포함한 다양한 벤치마크에서 기존 방법보다 샘플 효율성과 최종 성능 모두에서 우수한 결과를 보였습니다. 또한, 확산 정책의 잡음 제거 시간 단계 수에 대해서도 견고한 성능을 보이는 것으로 나타났습니다.
NCDPO는 확산 정책의 한계를 극복하고, AI 기반 시스템의 성능 향상에 크게 기여할 것으로 기대됩니다. 특히, 데이터 제약이 있는 상황에서도 효율적으로 정책을 학습할 수 있다는 점은 매우 중요한 의미를 지닙니다. 앞으로 NCDPO를 기반으로 한 더욱 발전된 연구와 다양한 응용 분야에서의 활용이 기대됩니다. 이 연구는 AI 기술 발전에 한 걸음 더 다가서는 중요한 이정표가 될 것입니다.
Reference
[arxiv] Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps
Published: (Updated: )
Author: Ningyuan Yang, Jiaxuan Gao, Feng Gao, Yi Wu, Chao Yu
http://arxiv.org/abs/2505.10482v1