맥락을 이해하는 AI: 상황별 목표 우선순위를 고려하는 다중 목표 계획 수립
본 연구는 상황에 따라 변하는 다중 목표의 우선순위를 고려하는 새로운 AI 계획 프레임워크인 CLMDP를 제시합니다. 베이지안 접근 방식과 시뮬레이션 및 실제 로봇 실험을 통해 그 효과를 검증하였으며, 자율 시스템의 지능과 적응력 향상에 기여할 것으로 기대됩니다.

자율 에이전트는 종종 상황에 따라 우선 순위가 달라지는 여러 목표 하에서 계획을 세워야 합니다. 에이전트는 작동 과정에서 여러 상황을 마주칠 수 있으며, 각 상황은 목표에 대한 독립적인 어휘적 순위를 부여하고, 각 상황과 관련된 서로 다른 보상 함수를 가질 수 있습니다. 기존의 다중 목표 계획 접근 방식은 일반적으로 상태 공간 전체에서 단일 목표 순위를 고려하며, 환경 내에서 여러 목표 순위에 따른 계획을 지원하지 않습니다.
Pulkit Rustagi, Yashwanthi Anand, Sandhya Saisubramanian 세 연구원은 이러한 문제를 해결하기 위해 상황별 어휘적 마르코프 의사 결정 과정(CLMDP) 이라는 프레임워크를 제시했습니다. CLMDP는 상황에 따라 변하는 어휘적 목표 순위에 따라 계획을 수립할 수 있도록 합니다. CLMDP에서 상태의 목표 순위와 관련된 보상 함수는 모두 상황에 의해 결정됩니다.
연구진은 전문가의 궤적(trajectories)으로부터 상태-상황 매핑을 추론하기 위해 베이지안 접근 방식을 사용했습니다. CLMDP를 해결하기 위한 알고리즘은 먼저 각 목표 순위에 대한 정책을 계산한 다음, 이들을 단일 상황 인식 정책으로 통합합니다. 이 정책은 유효하고 순환이 없는 특징을 가집니다. 제안된 접근 방식의 효과는 시뮬레이션과 모바일 로봇을 사용하여 평가되었습니다.
이 연구는 상황 변화에 따라 유연하게 목표 우선순위를 조정하는 AI 계획 시스템의 가능성을 보여줍니다. 이는 자율주행, 로봇 제어, 게임 AI 등 다양한 분야에서 더욱 지능적이고 적응력 있는 시스템 개발에 기여할 것으로 기대됩니다. 특히, 베이지안 접근 방식을 통한 전문가 지식의 활용은 시스템의 신뢰성과 성능 향상에 중요한 역할을 할 것으로 예상됩니다. 하지만, 다양한 상황과 목표의 복잡성을 효율적으로 처리하기 위한 추가적인 연구가 필요할 것으로 보입니다. 향후 연구에서는 더욱 복잡한 상황과 다양한 목표를 가진 시스템에 대한 적용 가능성과 한계를 탐구하는 것이 중요할 것입니다.
Reference
[arxiv] Multi-Objective Planning with Contextual Lexicographic Reward Preferences
Published: (Updated: )
Author: Pulkit Rustagi, Yashwanthi Anand, Sandhya Saisubramanian
http://arxiv.org/abs/2502.10476v1