AI 모방 학습의 혁신: 전문가와 '잘못된' 예시를 모두 배우는 방법
Huy Hoang 등 연구팀은 전문가와 바람직하지 않은 데모를 모두 활용하는 새로운 오프라인 모방 학습 방법을 제시했습니다. 이 방법은 전문가 데모가 많을 경우 볼록 최적화 문제로 변환되어 안정적인 학습을 가능하게 하며, 기존 최첨단 기법들을 능가하는 성능을 보였습니다.

기존의 오프라인 모방 학습은 전문가의 데모 데이터만을 사용하여 AI 에이전트를 훈련시키는 한계를 가지고 있었습니다. 하지만 Huy Hoang, Tien Mai, Pradeep Varakantham, Tanvi Verma 연구팀은 "Learning What to Do and What Not To Do: Offline Imitation from Expert and Undesirable Demonstrations" 논문에서 이러한 한계를 뛰어넘는 획기적인 방법을 제시했습니다.
이 연구의 핵심은 전문가의 성공적인 행동과 바람직하지 않은 실패 사례 모두를 학습 데이터로 활용하는 것입니다. 단순히 성공 사례만 학습하는 것이 아니라, 실패 사례를 통해 '하지 말아야 할 것'을 명확히 학습함으로써 AI 에이전트의 성능을 더욱 향상시키는 전략입니다.
연구팀은 전문가 데모와 바람직하지 않은 데모의 상태-행동 방문 분포 간 KL 발산의 차이를 최적화하는 새로운 공식을 제안했습니다. 흥미롭게도, 이는 일반적으로 비볼록 문제(DC program)이지만, 전문가 데모가 바람직하지 않은 데모보다 많을 경우 볼록 문제로 변환됨을 증명했습니다. 이는 안정적이고 실용적인 비적대적 학습 목표를 가능하게 합니다.
기존의 적대적 학습 방식과 달리, 이 방법은 양성(전문가) 및 음성(바람직하지 않은) 데모를 통합된 프레임워크 내에서 처리합니다. 다양한 오프라인 모방 학습 벤치마크 실험 결과, 이 접근 방식은 기존 최첨단 기법들을 꾸준히 능가하는 우수한 성능을 보여주었습니다.
이 연구는 단순히 성공 사례만을 학습하는 기존의 한계를 넘어, 실패 사례로부터 배우는 지능형 AI 시스템 개발에 중요한 전환점을 마련했습니다. 이는 자율주행, 로보틱스, 게임 AI 등 다양한 분야에 혁신적인 발전을 가져올 것으로 기대됩니다. 하지만, 전문가 데모의 양이 부족한 경우에는 성능 저하 가능성을 고려해야 할 것입니다. 향후 연구에서는 이러한 한계를 극복하고, 더욱 다양한 상황에 적용 가능한 로버스트한 알고리즘 개발이 필요할 것입니다.
Reference
[arxiv] Learning What to Do and What Not To Do: Offline Imitation from Expert and Undesirable Demonstrations
Published: (Updated: )
Author: Huy Hoang, Tien Mai, Pradeep Varakantham, Tanvi Verma
http://arxiv.org/abs/2505.21182v1