외부 영상으로 1인칭 영상 예측하는 혁신 기술, EgoExo-Gen

중국 연구진이 개발한 EgoExo-Gen은 외부 영상과 텍스트 설명을 활용하여 1인칭 영상을 예측하는 혁신적인 모델입니다. 손-물체 상호작용(HOI) 모델링과 자동화된 의사 HOI 마스크 생성 파이프라인을 통해 기존 모델보다 뛰어난 성능을 달성했습니다.

증강현실과 구현된 지능 분야에서 1인칭 시점 영상 생성은 매우 중요한 기술입니다. 최근, 중국 연구진(Jilan Xu 외 8명)이 외부 영상을 활용하여 1인칭 영상을 예측하는 획기적인 모델, EgoExo-Gen을 개발했습니다. 이 모델은 외부 영상, 1인칭 영상의 첫 프레임, 그리고 텍스트 설명을 입력받아 미래의 1인칭 영상 프레임을 생성합니다.

손-물체 상호작용(HOI)에 주목하다

EgoExo-Gen의 핵심은 바로 손-물체 상호작용(HOI) 에 있습니다. 연구진은 1인칭 영상에서 손과 물체의 상호작용이 사용자의 의도와 행동을 가장 잘 나타낸다고 보고, 이를 명시적으로 모델링했습니다. 이는 기존 모델들이 간과했던 중요한 부분을 포착하여 예측 정확도를 크게 향상시켰습니다.

EgoExo-Gen은 크게 두 단계로 구성됩니다. 먼저, 외부 영상과 1인칭 영상 간의 공간-시간적 대응 관계를 모델링하여 미래 1인칭 영상 프레임의 HOI 마스크를 예측하는 모델을 설계했습니다. 다음으로, 첫 번째 1인칭 프레임과 텍스트 설명을 사용하여 영상 확산 모델을 통해 미래 프레임을 예측하는데, 여기서 HOI 마스크를 구조적 지침으로 활용하여 예측의 정확성을 높입니다.

데이터 부족 문제 해결: 자동화된 의사 HOI 마스크 생성

충분한 학습 데이터 확보는 모델 성능 향상에 필수적입니다. 하지만 HOI 마스크를 수동으로 생성하는 것은 매우 어렵고 시간이 많이 소요됩니다. 이 문제를 해결하기 위해, 연구진은 비전 기반 모델을 활용하여 1인칭 및 3인칭 영상에 대한 의사 HOI 마스크를 자동으로 생성하는 파이프라인을 개발했습니다. 이를 통해 데이터 부족 문제를 효과적으로 해결하고 모델 학습에 필요한 양질의 데이터를 확보할 수 있었습니다.

놀라운 성능: EgoExo-4D와 H2O 벤치마크에서 우수한 결과

EgoExo-Gen은 Ego-Exo4D와 H2O 벤치마크 데이터셋에서 기존의 영상 예측 모델보다 뛰어난 성능을 보였습니다. 특히, HOI 마스크를 활용함으로써 1인칭 영상에서 손과 물체의 상호작용을 더욱 사실적으로 생성하는 데 성공했습니다.

EgoExo-Gen은 1인칭 영상 예측 분야에 새로운 가능성을 제시하는 획기적인 연구입니다. 앞으로 증강현실, 자율주행, 로보틱스 등 다양한 분야에서 활용될 것으로 기대됩니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] EgoExo-Gen: Ego-centric Video Prediction by Watching Exo-centric Videos

Published: (Updated: )

Author: Jilan Xu, Yifei Huang, Baoqi Pei, Junlin Hou, Qingqiu Li, Guo Chen, Yuejie Zhang, Rui Feng, Weidi Xie

http://arxiv.org/abs/2504.11732v1