혁신적인 강화학습: 무한 지평선에서의 평균 보상 최적화
Milad Kazemi 등 6명의 연구원이 발표한 논문은 무한 지평선 연속 작업에서 평균 보상을 최적화하는 새로운 강화학습 프레임워크를 제시합니다. 절대적 활성 사양을 평균 보상 목표로 변환하는 최초의 모델 없는 접근 방식으로, 알려지지 않은 환경에서도 수렴을 보장하고 효율적인 학습을 가능하게 합니다. 실험 결과는 기존 방법보다 우수한 성능을 보여주어, 향후 AI 시스템 개발에 중요한 영향을 미칠 것으로 예상됩니다.

최근 강화학습(Reinforcement Learning, RL) 분야의 눈부신 발전은 에이전트 행동을 형성하는 보상 함수 설계에 대한 관심을 다시 불러일으켰습니다. 하지만 수동으로 보상 함수를 설계하는 것은 지루하고 오류가 발생하기 쉽습니다. 이러한 문제를 해결하기 위해, Milad Kazemi 등 6명의 연구원은 형식 언어로 행동을 명시하고 이를 자동으로 보상으로 변환하는 원칙적인 대안을 제시했습니다.
그들은 omega-regular 언어를 사용하여 무한 행동 추적에 대한 속성을 설명하는데, 기존의 방법들은 할인된 보상 RL에 의존하여 주기적인 재설정을 하는 에피소드 설정에 의존하는데 반해, 이 연구는 평균 보상 기준과 에이전트가 단일하고 중단 없는 수명 동안 환경과 상호 작용하는 연속 설정을 더 적합하다고 제안합니다.
연구팀은 무한 지평선 연속 작업의 과제를 해결하기 위해 절대적 활성 사양(absolute liveness specifications)에 초점을 맞췄습니다. 이는 어떤 유한 행동 접두사에도 위배될 수 없는 omega-regular 언어의 하위 클래스로, 연속 설정에 적합합니다. 이 연구는 절대적 활성 사양을 평균 보상 목표로 변환하는 최초의 모델 없는 RL 프레임워크를 제시합니다. 이 접근 방식을 통해 에피소드 재설정 없이 통신 MDP(Communicating MDPs)에서 학습이 가능해집니다.
또한, 주어진 omega-regular 사양의 만족 확률을 극대화하는 정책 중에서 외부 평균 보상 목표를 극대화하기 위한 사전순위 다중 목표 최적화를 위한 보상 구조를 도입했습니다. 이 방법은 알려지지 않은 통신 MDP에서 수렴을 보장하며, 환경에 대한 완전한 지식이 필요 없는 온라인 감소를 지원하므로 모델 없는 RL을 가능하게 합니다. 실험 결과는 연속 설정에서 평균 보상 접근 방식이 벤치마크에서 할인 기반 방법보다 우수한 성능을 보임을 보여줍니다. 이 연구는 무한 지평선에서의 강화학습 문제에 대한 새로운 해결책을 제시하며, 더욱 안정적이고 효율적인 인공지능 시스템 개발에 기여할 것으로 기대됩니다.
Reference
[arxiv] Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives
Published: (Updated: )
Author: Milad Kazemi, Mateo Perez, Fabio Somenzi, Sadegh Soudjani, Ashutosh Trivedi, Alvaro Velasquez
http://arxiv.org/abs/2505.15693v1