탐색 과제를 통한 구현된 세계 모델의 자발적 출현: 폐쇄 환경에서의 공간 추론


Li Jin과 Liu Jia의 연구는 희소 보상 기반 훈련을 통해 에이전트가 자율적으로 공간적 개념을 학습하고, 이를 통해 효율적인 탐색 경로를 생성하는 것을 보여줍니다. 하이브리드 동역학 시스템 분석과 Ridge Representation, 정준 상관 분석을 통해 에이전트의 신경 활동과 행동 사이의 강력한 연관성을 밝혀냈으며, 이는 구현된 세계 모델의 존재를 강력하게 시사합니다.

related iamge

부분적으로 관찰 가능한 환경에서의 공간 추론은 종종 수동적인 예측 모델을 통해 접근되어 왔습니다. 하지만 구현된 인지 이론은 진정으로 유용한 표현은 지각이 행동과 밀접하게 결합될 때만 나타난다고 시사합니다. Li Jin과 Liu Jia는 이러한 이론에 기반하여 흥미로운 연구 결과를 발표했습니다.

그들의 연구는 절차적으로 생성된 평면 미로에서 희소 보상만으로 훈련된 순환 에이전트가 방향, 거리, 장애물 배치와 같은 공간적 개념을 자율적으로 내면화할 수 있는지 여부를 질문으로 던집니다. 훈련 후, 에이전트는 보이지 않는 미로에서도 일관되게 최적 경로에 가까운 경로를 생성하는데, 이는 잠재적인 공간 모델의 존재를 암시합니다.

연구진은 이 가능성을 탐구하기 위해 폐쇄된 에이전트-환경 루프를 하이브리드 동역학 시스템으로 간주하고, 상태 공간에서 안정적인 극한 순환을 식별했습니다. Ridge Representation을 사용하여 전체 궤적을 공통 메트릭 공간에 임베딩하고, 정준 상관 분석(Canonical Correlation Analysis) 을 통해 신경 매니폴드와 행동 매니폴드 간의 강력한 선형 정렬을 밝혀냈습니다. 더 나아가, 가장 정보가 풍부한 신경 차원을 목표로 한 교란(perturbation) 은 탐색 성능을 크게 저하시켰습니다.

이러한 동역학적, 표상적, 인과적 특징들을 종합적으로 고려할 때, 지속적인 감각 운동 상호 작용은 간결하고 구현된 세계 모델의 자발적인 출현에 충분하며, 해석 가능하고 전이 가능한 탐색 정책을 위한 원칙적인 경로를 제공합니다. 이 연구는 단순한 예측 모델을 넘어, 에이전트의 행동과 지각의 상호작용을 통해 생성되는 구현된 세계 모델의 중요성을 강조하는 중요한 결과입니다. 이는 인공지능 분야, 특히 로봇 공학 및 자율 주행 분야에 시사하는 바가 큽니다. 미래 연구에서는 이러한 모델의 일반화 능력과 다양한 환경에서의 적용 가능성을 더욱 탐구해야 할 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Embodied World Models Emerge from Navigational Task in Open-Ended Environments

Published:  (Updated: )

Author: Li Jin, Liu Jia

http://arxiv.org/abs/2504.11419v2