제한된 합리성 모델링의 혁신: Wasserstein 거리를 활용한 강화학습 에이전트


본 기사는 Benjamin Patrick Evans, Leo Ardon, Sumitra Ganesh의 연구를 바탕으로, 기존의 제한된 합리성 모델링 방식의 한계와 Wasserstein 거리를 이용한 새로운 접근 방식을 소개합니다. 이는 순서형 행동 공간과 다양한 사전 확률 분포를 고려하여 더욱 현실적인 AI 에이전트 개발에 기여할 것으로 기대됩니다.

related iamge

인간의 의사결정은 완벽히 합리적이지 않습니다. 정보처리의 한계와 편향 등으로 인해, 우리는 항상 최적의 선택을 하는 것은 아니죠. 이러한 '제한된 합리성(Bounded Rationality)'을 강화학습(Reinforcement Learning) 프레임워크 내에서 모델링하는 것은 오랫동안 AI 연구의 핵심 과제였습니다.

기존에는 엔트로피, KL Divergence, 상호 정보량 등을 활용하여 제한된 합리성을 모델링해왔습니다. 하지만 Benjamin Patrick Evans, Leo Ardon, Sumitra Ganesh 등의 연구자들은 이러한 접근 방식이 순서형 행동 공간(Ordinal Action Space)에서는 한계를 드러낸다는 점을 지적합니다. 예를 들어, 엔트로피는 균일한 사전 확률을 가정하기 때문에, 사전적 편향의 영향을 제대로 반영하지 못합니다. KL Divergence는 편향을 고려하지만, 행동 간의 '근접성' 개념이 부족하고 비대칭성, 동일한 지지 집합(Support) 요구 등의 문제점을 가지고 있습니다. 또한 상호 정보량은 추정이 어렵다는 단점이 있습니다.

이러한 문제점들을 해결하기 위해, 연구팀은 Wasserstein 거리를 활용한 새로운 접근 방식을 제시했습니다. 이 방법은 순서형 행동 공간에서 '행동의 근접성'을 고려하여 에이전트의 결정에서 '고착성(Stickiness)'을 모델링합니다. 즉, 에이전트가 멀리 떨어진 행동으로 급격히 전환하는 것을 덜 가능하게 만드는 것이죠. 동시에, 낮은 확률의 행동이나 0 확률을 갖는 사전 확률 분포도 지원하며, 계산 또한 간편합니다.

이 연구는 단순히 새로운 알고리즘을 제시하는 것을 넘어, 제한된 합리성을 모델링하는 데 있어 기존 접근 방식의 한계를 명확히 밝히고, 그 대안을 제시함으로써 AI 연구에 중요한 시사점을 제공합니다. Wasserstein 거리 기반의 이 새로운 모델은 더욱 현실적이고 정교한 AI 에이전트 개발에 기여할 것으로 기대됩니다. 앞으로 이 접근 방식이 다양한 응용 분야에서 어떻게 활용될지, 그리고 어떤 발전을 가져올지 주목할 필요가 있습니다.

핵심: 기존 방식의 문제점 지적 → Wasserstein 거리 활용한 새로운 모델 제시 → 순서형 행동 공간 고려 및 사전 확률 분포 유연성 확보 → 더욱 현실적이고 정교한 AI 에이전트 개발 기여


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Modelling bounded rational decision-making through Wasserstein constraints

Published:  (Updated: )

Author: Benjamin Patrick Evans, Leo Ardon, Sumitra Ganesh

http://arxiv.org/abs/2504.03743v1