획기적인 AI 기술: 단일 이미지에서 다중 인물 애니메이션 생성


왕전지 박사 연구팀의 '구조적 비디오 확산' 프레임워크는 단일 이미지에서 다중 인물과 사물의 상호작용을 포함한 사실적인 비디오 생성을 가능하게 하는 획기적인 기술입니다. 개인별 임베딩과 구조적 학습 메커니즘을 통해 현실감 있는 비디오를 생성하며, 25,000개 이상의 새로운 데이터셋을 활용하여 성능을 더욱 향상시켰습니다.

related iamge

단일 이미지에서 다중 인물 애니메이션: AI의 눈부신 발전

단일 이미지로부터 여러 인물이 등장하고 사물과 상호작용하는 생생한 비디오를 생성하는 것은 인공지능 분야의 오랜 숙제였습니다. 기존 기술들은 단일 인물에 대해서는 어느 정도 성과를 보였지만, 여러 인물의 복잡한 상호작용을 정확하게 표현하는 데는 한계가 있었습니다. 인물의 외형과 자세를 정확하게 연결하고, 3D 공간적 동적인 움직임을 모델링하는 데 어려움이 있었기 때문입니다.

하지만 최근, 왕전지(Zhenzhi Wang) 박사를 비롯한 연구팀이 '구조적 비디오 확산(Structural Video Diffusion)' 이라는 혁신적인 프레임워크를 발표하며 이러한 한계를 극복했습니다. 이 프레임워크는 두 가지 핵심 혁신을 통해 현실감 넘치는 다중 인물 비디오 생성을 가능하게 합니다.

첫 번째 혁신은 '개인별 임베딩(identity-specific embeddings)'입니다. 이 기술은 각 인물의 고유한 특징을 유지하여, 비디오 전반에 걸쳐 일관된 외모를 보장합니다. 여러 인물이 등장하는 비디오에서도 각 인물의 개성이 뚜렷하게 유지되는 것이죠.

두 번째 혁신은 '구조적 학습 메커니즘'입니다. 이는 깊이(depth)와 표면 법선(surface-normal) 정보를 활용하여 인물과 사물 간의 상호작용을 더욱 정교하게 모델링합니다. 단순히 인물의 움직임만 표현하는 것이 아니라, 주변 환경과의 상호작용까지 고려하여 더욱 현실적인 비디오를 생성할 수 있게 되었습니다.

연구팀은 이러한 기술 개발과 더불어, 다양한 다중 인물 및 사물 상호작용 시나리오를 담은 25,000개 이상의 새로운 비디오 데이터셋을 공개했습니다. 이 방대한 데이터셋은 모델 학습에 중요한 기반이 되어, '구조적 비디오 확산' 프레임워크의 성능 향상에 크게 기여했습니다. 실험 결과, 이 프레임워크는 다양한 상호작용을 보이는 여러 인물을 사실적이고 일관되게 표현하는 비디오 생성에 뛰어난 성능을 보였습니다.

이 연구는 인공지능 기반 비디오 생성 기술의 새로운 지평을 열었습니다. 앞으로 영화, 게임, 교육 등 다양한 분야에서 활용될 가능성이 매우 높습니다. 특히, 실감나는 가상현실(VR)이나 증강현실(AR) 콘텐츠 제작에 혁신을 가져올 것으로 기대됩니다. 하지만, 개인 정보 보호 및 윤리적인 문제에 대한 심도있는 논의 또한 필요할 것으로 보입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Multi-identity Human Image Animation with Structural Video Diffusion

Published:  (Updated: )

Author: Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Yuwei Guo, Dahua Lin, Tianfan Xue, Bo Dai

http://arxiv.org/abs/2504.04126v1