EgoToM: 이기중심적 영상을 통한 마음 이론 추론의 새로운 지평


EgoToM 벤치마크를 통해 이기중심적 영상에서의 마음 이론 추론 능력 평가가 가능해졌으며, 거대 언어 모델(MLLM)은 목표 추론에선 인간 수준의 성능을 보였으나, 믿음 상태와 미래 행동 예측에는 아직 한계가 있음을 밝혔습니다. 이는 향후 이기중심적 디지털 어시스턴트 개발에 중요한 시사점을 제공합니다.

related iamge

최근 Yuxuan Li 등 연구진이 발표한 논문 “EgoToM: Benchmarking Theory of Mind Reasoning from Egocentric Videos”는 인공지능 분야, 특히 마음 이론(Theory of Mind, ToM) 연구에 새로운 이정표를 제시합니다. 연구진은 EgoToM이라는 새로운 벤치마크를 통해 이기중심적 영상(Egocentric Videos)에서의 ToM 추론 능력을 평가하는 새로운 방법론을 제시했습니다. 이기중심적 영상이란, 사용자의 시점에서 촬영된 영상을 말하며, 자율주행 자동차나 웨어러블 기기 등 다양한 분야에서 활용되고 있습니다.

연구진은 인과적 ToM 모델을 활용하여 Ego4D 데이터셋을 기반으로 다중 선택형 영상 질의응답(Video QA) 인스턴스를 생성했습니다. 이를 통해 카메라 착용자의 목표, 믿음, 다음 행동을 예측하는 능력을 벤치마킹했습니다. 흥미롭게도, 인간과 최첨단 다중 모달 거대 언어 모델(MLLM) 의 성능을 비교 분석한 결과, MLLM이 이기중심적 영상으로부터 목표를 추론하는 데 있어 인간 수준의 정확도에 근접하는 것을 확인했습니다. 이는 100B 이상의 매개변수를 가진 대규모 MLLM에서도 확인된 놀라운 결과입니다.

하지만, 연구는 MLLM의 한계도 명확히 보여줍니다. MLLM은 카메라 착용자의 실시간 믿음 상태미래 행동을 예측하는 데 있어서는 인간의 성능에 미치지 못했습니다. 특히, 영상의 미래를 예측하는 데 필요한 추론 능력은 아직 상당한 기술적 발전이 필요함을 시사합니다.

이러한 연구 결과는 사용자의 내적 정신 상태를 이해하는 이기중심적 디지털 어시스턴트 개발에 중요한 시사점을 제공합니다. 앞으로의 연구는 MLLM의 ToM 능력을 향상시켜, 사용자의 맥락과 의도를 정확하게 파악하고 반응하는 보다 지능적인 디지털 어시스턴트 개발에 집중될 것으로 예상됩니다. EgoToM 벤치마크는 이러한 발전에 중요한 역할을 할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] EgoToM: Benchmarking Theory of Mind Reasoning from Egocentric Videos

Published:  (Updated: )

Author: Yuxuan Li, Vijay Veerabadran, Michael L. Iuzzolino, Brett D. Roads, Asli Celikyilmaz, Karl Ridgeway

http://arxiv.org/abs/2503.22152v1